L’IA Llama 3 de Meta est intelligente, mais qui va en profiter ?

-

Avec de grands modèles de langage, plus c’est gros, mieux c’est (et plus vite), mais mieux c’est aussi mieux. Et l’une des principales conclusions de l’équipe de recherche Meta AI avec la famille de modèles Llama est que vous souhaitez optimiser l’inférence d’IA au moindre coût et aux performances les plus élevées avec n’importe quel modèle, puis gérer les inefficacités qui pourraient résulter de la formation en IA.

Et maintenant, avec Llama 3, Meta Platforms a amélioré à la fois la formation et l’inférence de l’IA, donnant aux derniers modèles Google Gemini Pro 1.5, Microsoft/OpenAI GPT-4 et Anthropic Claude 3 une chance pour le – eh bien, nous supposons que c’est le cas. argent mais cela reste à voir.

Le modèle original Llama 1, comme nous l’appelons maintenant, a été dévoilé il y a longtemps et à une époque lointaine, en février 2023, et nous avons expliqué en détail en quoi Llama était différent de tous les grands LLM de l’époque et nous n’y allons pas. pour revoir tout cela à nouveau. Vous pouvez lire l’article décrivant les quatre différents modèles de Llama et l’ensemble de données open source utilisé pour les entraîner sur ce lien. Les modèles Llama 1 n’étaient pas open source, mais Meta Platforms a fourni le code source aux chercheurs qui en ont fait la demande, et l’on s’attendait à ce que Llama soit finalement ouvert et libéré.

Avec Llama 1, Meta Platforms a livré des modèles avec un nombre assez restreint de paramètres – 7 milliards, 13 milliards, 33 milliards et 65 milliards – et a déclaré qu’il pourrait égaler ou battre les modèles beaucoup plus gros GPT-3 175B et PaLM 540B d’OpenAI et Google. Les premiers résultats ont montré quelque chose qui aurait dû être évident pour tout le monde : Plus de données bat plus de paramètres.

Vous remarquerez qu’il ne s’agit là que d’un corollaire de ce que nous avons paraphrasé comme plus de données battent à chaque fois un meilleur algorithmequi est un riff sur une idée présentée par Peter Norvig, chercheur en éducation à l’Université de Stanford et chercheur et directeur de l’ingénierie chez Google pendant plus de deux décennies, co-auteur de l’article fondateur L’efficacité déraisonnable des données en 2009.

L’important avec les Llamas est que les méta-plateformes se concentraient sur la réduction des coûts d’inférence et l’augmentation des performances d’inférence. Les modèles Llama ont également bousculé la sagesse conventionnelle des créateurs du Chinchilla LLM selon laquelle il existe une taille de modèle, un budget de calcul et un nombre de jetons idéaux. , le temps d’entraînement, la latence d’inférence et les performances. Meta Platforms a pris son plus petit modèle avec 7 milliards de paramètres et y a fait passer plus de 1 000 milliards de jetons, et Llama 1 7B a continué de s’améliorer par rapport à mâcher de la rumeur avec moins de jetons. Les modèles Llama 1 ont été entraînés sur 2 048 GPU A100 « Ampere », les modèles 7B et 13B utilisant 1 000 milliards de jetons et les modèles 33B et 65B utilisant 1 400 milliards de jetons. La longueur du contexte – la quantité de données que vous pouviez saisir dans une invite à l’appel 1 n’était que de 2 048 jetons.

Avec Llama 2, lancé en juillet 2023, l’orthographe de la demande de rançon a disparu – ce n’est pas LLaMA, abréviation de Large Language Model Meta AI, qui techniquement serait LLMMAI mais qui en garde la trace – et maintenant nous l’appelons simplement Lama. Les modèles Llama 2 ont été entraînés avec 2 000 milliards de jetons, étaient disponibles avec des variations de paramètres 7B, 13B et 70B et avaient une fenêtre contextuelle doublée pour atteindre 4 096 jetons. Il contenait plus d’un million d’annotations humaines pour réduire les erreurs et les hallucinations, et offrait quelques points de précision supplémentaires dans les tests. (Vous pouvez lire l’article de Llama 2 ici.) Il est important de noter que les modèles de Llama 2 étaient entièrement et correctement open source et étaient gratuits à la fois pour la recherche et pour une utilisation commerciale. C’est pourquoi nous pensons qu’à long terme, le framework PyTorch et les modèles Llama seront largement utilisés par les entreprises qui souhaitent déployer leur propre IA.

La semaine dernière, Meta Platforms a déployé Llama 3 et son interface de chat Meta AI améliorée, intégrée à ses applications Facebook, Instagram, WhatsApp et Messenger et désormais basée sur Llama 3.

Avec Llama 3, le modèle est livré avec des variations de paramètres 8B et 80B – jusqu’à présent, les méta-plateformes ont résisté à la tentation de créer un modèle de paramètres 800B, sans doute pour essayer de maintenir le calcul d’inférence et donc les coûts à un niveau bas – et a été formé sur un chiffre stupéfiant de 15 000 milliards. jetons. Plus de 5 % de ces données de formation – soit environ 800 millions de jetons – devaient représenter des données dans 30 langues différentes. Et bien que Meta Platforms n’ait pas donné de nombre de jetons pour ce domaine, il a indiqué que 4 fois plus de code – c’est-à-dire du code de langage de programmation – était utilisé avec la formation Llama 3 par rapport à Llama 2. (Nous nous demandons où Meta Platforms organise ce code. , et s’il met son propre code dans l’ensemble de formation ?) Fait intéressant, les modèles Llama 2 ont été utilisés pour passer au crible ces milliards de jetons afin d’identifier les ensembles de données appropriés à ajouter à la formation pour Llama 3. Le code source et les données de formation pour Lama 3 est disponible ici sur GitHub et ici sur Hugging Face ; les poids du modèle et le tokenizer sont disponibles directement à partir des méta-plateformes.

Meta Platforms a laissé entendre dans son annonce que d’autres paramètres seraient disponibles pour les modèles Llama 3 à l’avenir, alors ne comptez pas sur les modèles plus grands et plus petits pour l’avenir. Meta Platforms n’a pas encore publié le document technique de Llama 3, mais l’annonce contient des informations intéressantes.

“Conformément à notre philosophie de conception, nous avons opté pour une architecture de transformateur relativement standard, composée uniquement de décodeurs, dans Llama 3”, ont écrit les dizaines de chercheurs qui ont travaillé sur le LLM dans le blog d’annonce annonçant Llama 3. “Par rapport à Llama 2, nous apporté plusieurs améliorations clés. L’appel 3 utilise un tokenizer avec un vocabulaire de 128 000 jetons qui code le langage beaucoup plus efficacement, ce qui conduit à des performances de modèle considérablement améliorées. Pour améliorer l’efficacité de l’inférence des modèles Llama 3, nous avons adopté l’attention des requêtes groupées (GQA) pour les tailles 8B et 70B. “Nous avons formé les modèles sur des séquences de 8 192 jetons, en utilisant un masque pour garantir que l’attention personnelle ne dépasse pas les limites du document.”

Meta Platforms propose de plus grandes variantes de Llama 3, la plus grande comportant plus de 400 milliards de paramètres. Nous soupçonnons que celles-ci seront annoncées en même temps que d’autres fonctionnalités qui ne sont pas encore prêtes à être diffusées aux heures de grande écoute mais qui font partie de la pile Llama 3, notamment la possibilité d’effectuer un traitement multimodal, de converser dans plusieurs langues et d’avoir une fenêtre contextuelle plus grande. (Vraisemblablement, cela représente toujours 4 096 jetons comme Llama 2, mais Meta Platforms ne l’a pas dit dans l’annonce. Lorsque nous avons interrogé le chatbot Meta AI, il a répondu qu’il s’agissait effectivement de 4 096 jetons.)

Les modèles Llama 3 ont été entraînés sur une paire de clusters basés sur des GPU Nvidia « Hopper » H100, l’un utilisant Ethernet et l’autre utilisant InfiniBand, que nous avons détaillés ici le mois dernier et qui disposent de 24 576 GPU chacun. Meta Platforms affirme que sa mise en œuvre la plus efficace de Llama 3 s’est déroulée sur 16 000 GPU et qu’avec toutes sortes d’ajustements du système, la formation était 3 fois plus efficace que Llama 3. Cela dit, l’utilisation du calcul n’a atteint que 400 téraflops par GPU sur ces 16 000 GPU. Avec une parcimonie désactivée et fonctionnant en demi-précision FP16, le H100 est évalué à 989 téraflops, ce qui ne représente qu’une efficacité de calcul de 40,4 %. Si la prise en charge de la parcimonie était activée dans les H100 exécutant Llama 3 ou si les formats de données étaient au quart de précision FP8, cela ne représenterait qu’une efficacité de calcul de 20,2 %. Et avec le FP8 activé, cela ne représenterait qu’une efficacité de calcul de 10,1 %.

Voici comment Llama 3 7B et 70B se comparent à d’autres modèles fonctionnant en mode « instruction », où ils doivent faire quelque chose comme passer des tests ou faire des mathématiques par rapport à Google Gemma et Gemini Pro 1.5, Mistral et Claude 3 :

Les benchmarks ci-dessus sont le benchmark Massive Multitask Language Understanding, qui teste le traitement du contexte ; les tests à choix multiples de questions-réponses Google-Proof de niveau supérieur pour la biologie, la physique et la chimie ; le test de génération de code HumanEval ; le test de mathématiques GSM-8K à l’école primaire ; et le test de problème de mots MATH.

Voici comment le Llama 3 LLM pré-entraîné s’est comparé à d’autres modèles pré-entraînés pour cinq références différentes :

AGIEval English est un amalgame d’examens d’entrée à l’université ; BIG-Bench Hard, qui est un ensemble d’énigmes logiques pour tester le raisonnement de bon sens ; ARC-Challenge est un corpus de raisonnement abstrait basé sur des modèles symétriques complexes ; DROP est l’abréviation de – enfin, en quelque sorte – Raisonnement discret sur le contenu des paragraphes et il s’agit d’un test de compréhension écrite.

Une fois de plus, Meta Platforms a souligné qu’elle tenait à conserver des modèles petits et à y gérer de nombreuses données. Cela prend plus de temps et de calculs, mais donne de bons résultats même si la formation peut être plus coûteuse. Cela signifie que l’inférence est moins coûteuse, ce qui est plus important pour la pile d’applications des méta-plateformes.

“Nous avons fait plusieurs nouvelles observations sur le comportement de mise à l’échelle au cours du développement de Llama 3”, écrivent les techniciens de Meta Platforms. « Par exemple, alors que la quantité d’entraînement optimale pour Chinchilla calculée pour un modèle de paramètres 8B correspond à environ 200 milliards de jetons, nous avons constaté que les performances du modèle continuent de s’améliorer même après que le modèle soit formé sur deux ordres de grandeur supplémentaires de données. Nos modèles de paramètres 8B et 70B ont continué à s’améliorer de manière log-linéaire après les avoir formés sur des jetons jusqu’à 15T. Les modèles plus grands peuvent égaler les performances de ces modèles plus petits avec moins de calcul d’entraînement, mais les modèles plus petits sont généralement préférés car ils sont beaucoup plus efficaces lors de l’inférence.

Et juste pour le plaisir, Meta Platforms a montré les performances de son benchmark Llama 3 sur les benchmarks pré-entraînés alors qu’il contenait plus de 400 milliards de paramètres :

Voici le problème. Le modèle pré-entraîné Llama 3 8B avait une moyenne pondérée cumulative de 62,1 pour cent, ce qui est un F d’où nous venons. Llama 3 70B a fait mieux avec une note moyenne de 79,3 pour cent, mais ce n’est encore qu’une moyenne de C+. Je ne vais pas entrer dans une bonne université avec cette moyenne. Le modèle pré-entraîné Llama 3 400B+ – et rappelez-vous que ce modèle est toujours en cours d’entraînement, donc ses notes s’amélioreront sans aucun doute et aussi que nous ne savons pas combien de paramètres au-dessus de 400 milliards cette variante de Llama 3 utilise, alors ne le faites pas. supposons qu’il s’agisse de 400B et très probablement de 800B – le LLM obtient une moyenne cumulative de 83,9 sur ces cinq tests et c’est un solide B. Oui, les petits modèles fonctionnent rapidement par inférence, mais il est clair que les modèles plus grands obtiennent de meilleures notes.

Lequel souhaitez-vous intégrer dans vos applications ou dans celles des personnes et des entreprises avec lesquelles vous faites affaire ? (La réponse pourrait être pas de LLM, nous en sommes conscients.)

Et voici une bonne question : Où est le Red Hat pour PyTorch et Llama ? Llama a enregistré plus de 30 millions de téléchargements entre février et septembre 2023, dont 10 millions rien qu’en septembre. À ce rythme, Llama aura déjà dépassé les 100 millions de téléchargements si les téléchargements sont linéaires depuis septembre de l’année dernière jusqu’à aujourd’hui.

S’agira-t-il réellement d’IBM Watsonx, de Red Hat Enterprise Linux, d’OpenShift pour les conteneurs Kubernetes et d’OpenStack pour la gestion sous-jacente de la virtualisation des clusters ? Un nouveau joueur va-t-il émerger ? Quelqu’un souhaite-t-il démarrer une nouvelle entreprise ?

Ne serait-il pas drôle si IBM vendait une tonne de logiciels et de support grâce à l’IA générative ? Il peut être utile de rappeler que WebSphere, qui est un serveur Web Apache amélioré avec un serveur d’applications Java Tomcat intégré, a rapporté à IBM des dizaines de milliards de dollars de revenus au cours des deux dernières décennies et demie et probablement la moitié de cela s’est répercuté sur le résultat net.

-

NEXT Un groupe de producteurs de cannabis prévient que l’industrie pourrait s’effondrer d’ici un an si les agriculteurs n’obtiennent pas d’aide financière | Nouvelles