Amazon AWS lance la puce Inferentia 2 pour accélérer l'inférence de modèles à grande échelle-Redplanx

Amazon AWS lance la puce Inferentia 2 pour accélérer l'inférence de modèles à grande échelle

AWS raisonnement série performance mètre total distribué accélérateur échelle mémoire

2024-12-26 07:13

Amazon AWS lance la puce Inferentia 2, qui triple les performances de calcul et augmente d'un quart la mémoire totale de l'accélérateur. Inferentia 2 prend en charge le raisonnement distribué et peut prendre en charge jusqu'à 175 milliards de paramètres, ce qui en fait un concurrent sérieux pour le raisonnement sur modèles à grande échelle.

Prev：Amazon AWS veröffentlicht den Inferentia 2-Chip, um groß angelegte Modellinferenzen zu beschleunigen

Next：Amazon AWS lança chip Inferentia 2 para acelerar inferência de modelos em grande escala