Amazon AWS lance la puce Inferentia 2 pour accélérer l'inférence de modèles à grande échelle

31
Amazon AWS lance la puce Inferentia 2, qui triple les performances de calcul et augmente d'un quart la mémoire totale de l'accélérateur. Inferentia 2 prend en charge le raisonnement distribué et peut prendre en charge jusqu'à 175 milliards de paramètres, ce qui en fait un concurrent sérieux pour le raisonnement sur modèles à grande échelle.