NVIDIA est-il en tête alors qu'Etched lance des ASIC pour les LLM 20 fois plus rapides que les GPU H100 ?

Etched fait des vagues dans le domaine du matériel d’intelligence artificielle avec sa nouvelle puce révolutionnaire d’accélérateur d’IA. La startup de la Silicon Valley, fondée en 2022 par Gavin Uberti et Chris Zhu, qui ont abandonné Harvard, a développé un circuit intégré spécifique à une application (ASIC) personnalisé appelé Sohu, spécialement conçu pour exécuter des modèles de transformateurs – l’architecture derrière les systèmes d’IA les plus avancés d’aujourd’hui.

Transformateur gravé ASICS pour LLM

Etched affirme que sa puce Sohu peut traiter les charges de travail d’IA jusqu’à 20 fois plus rapidement que les GPU haut de gamme de Nvidia tout en utilisant beaucoup moins d’énergie. Avec 120 millions de dollars de nouveaux financements et des partenariats avec les principaux fournisseurs de cloud, Etched se positionne comme un redoutable challenger à la domination de Nvidia dans le domaine des puces IA.

Performances de Sohu par rapport aux meilleurs GPU (gravé)

Primary Venture Partners et Positive Sum Ventures ont dirigé le cycle de financement, qui comprenait la participation d’investisseurs de premier plan tels que Peter Thiel, le PDG de Github Thomas Dohmke et l’ancien CTO de Coinbase Balaji Srinivasan. Alors que les modèles de transformateurs continuent de générer des percées dans l’IA générative, le matériel spécialisé d’Etched pourrait remodeler le paysage de l’informatique de l’IA.

L’approche d’Etched cible la complexité des GPU et des TPU, en particulier la nécessité de gérer du code arbitraire CUDA et PyTorch, qui nécessite des compilateurs sophistiqués. Alors que d’autres développeurs de puces IA comme AMD, Intel et AWS ont investi des milliards dans le développement de logiciels avec un succès limité, Etched restreint son champ d’action. En exécutant exclusivement des transformateurs, Etched peut rationaliser le développement logiciel pour ces modèles.

La plupart des entreprises d’IA utilisent des bibliothèques d’inférence spécifiques aux transformateurs telles que TensorRT-LLM, vLLM ou TGI de HuggingFace. Bien que quelque peu rigides, ces frameworks suffisent à la plupart des besoins car les modèles de transformateur dans différentes applications (texte, image ou vidéo) sont fondamentalement similaires. Cela permet aux utilisateurs d’ajuster les hyperparamètres du modèle sans modifier le code du modèle principal. Cependant, les laboratoires d’IA les plus importants nécessitent souvent des solutions personnalisées, employant des ingénieurs pour optimiser méticuleusement les noyaux GPU.

Etched vise à éliminer le besoin d’ingénierie inverse en rendant l’ensemble de sa pile logicielle open source, des pilotes aux noyaux. Cette ouverture permet aux ingénieurs d’implémenter des couches de transformateur personnalisées selon les besoins, améliorant ainsi la flexibilité et l’innovation.

L’approche d’Etched en matière de matériel d’IA est comparable aux avancées observées avec le moteur d’inférence LPU de Groq. Le LPU de Groq, une unité de traitement du langage dédiée, a établi de nouvelles références en matière d’efficacité de traitement pour les grands modèles de langage, surpassant les GPU traditionnels dans des tâches spécifiques. Selon ArtificialAnalysis.ai, le LPU de Groq a atteint un débit de 241 jetons par seconde avec le modèle Llama 2-70b de Meta AI, démontrant sa capacité à traiter de grands volumes de données plus simples plus efficacement que d’autres solutions.

Ce niveau de performances met en lumière le potentiel du matériel d’IA spécialisé pour révolutionner le domaine en offrant des capacités de traitement plus rapides et plus efficaces adaptées aux charges de travail d’IA spécifiques. Etched affirme que son ASIC atteint jusqu’à 500 000 jetons par jeton avec son matériel, éclipsant ainsi les performances de Groq.

Les ASIC ont changé la donne pour Bitcoin ; feront-ils la même chose pour l’IA ?

L’introduction des ASIC pour le minage de Bitcoin a marqué un changement révolutionnaire dans le paysage, modifiant fondamentalement la dynamique du réseau. Lorsque les ASIC ont été introduits pour la première fois en 2013, ils ont représenté un bond en avant en termes d’efficacité minière par rapport aux CPU et aux GPU qui dominaient auparavant le secteur. Cette transition a eu un impact profond sur l’écosystème de Bitcoin, augmentant considérablement le taux de hachage global du réseau et, par conséquent, sa sécurité.

Les ASIC, spécialement conçus pour le minage de Bitcoin, offraient une puissance de calcul et une efficacité énergétique sans précédent, rendant rapidement le minage de CPU et de GPU obsolète pour Bitcoin. Ce changement a conduit à une centralisation rapide de la puissance minière, car seuls ceux ayant accès au matériel ASIC pouvaient exploiter de manière rentable Bitcoin. L’ère ASIC a marqué le début des opérations minières à l’échelle industrielle, transformant l’exploitation minière de Bitcoin d’un passe-temps accessible aux particuliers passionnés en une industrie hautement compétitive et à forte intensité de capital.

Histoire et développement gravés

La vision d’Etched a commencé en 2022, lorsque les technologies d’IA telles que ChatGPT n’étaient pas encore répandues et que les modèles de génération d’images et de vidéos reposaient principalement sur les U-Nets et les CNN. Depuis lors, les transformateurs sont devenus l’architecture dominante dans divers domaines de l’IA, validant l’orientation stratégique d’Etched.

La société progresse rapidement vers l’un des lancements de puces les plus rapides de l’histoire. Il a attiré les meilleurs talents issus de grands projets de puces d’IA, s’est associé à TSMC pour son processus avancé de 4 nm et a sécurisé des ressources essentielles telles que HBM et la fourniture de serveurs pour soutenir la production initiale. Les premiers clients ont déjà engagé des dizaines de millions de dollars dans le matériel Etched.

Ces progrès rapides pourraient considérablement accélérer les capacités de l’IA. Par exemple, les modèles d’IA pourraient devenir du jour au lendemain 20 fois plus rapides et moins chers. Les limitations actuelles pourraient être considérablement réduites, comme les temps de réponse lents de modèles comme Gemini ou les coûts élevés et les longs temps de traitement des agents de codage. Les applications en temps réel, depuis la génération de vidéos jusqu’aux conversations basées sur l’IA, pourraient devenir réalisables, éliminant ainsi les goulots d’étranglement auxquels sont actuellement confrontées même les grandes entreprises d’IA comme OpenAI pendant les périodes de pointe d’utilisation.

Les avancées d’Etched promettent de faire de la vidéo, des appels, des agents et de la recherche en temps réel une réalité, transformant fondamentalement les capacités de l’IA et leur intégration dans les applications quotidiennes.

Le post NVIDIA est-il en tête alors qu’Etched lance des ASIC pour les LLM 20 fois plus rapides que les GPU H100 ? est apparu en premier sur CryptoSlate.