
Microsoft a présenté Orca 2, un petit modèle de langage qui atteint des capacités de raisonnement comparables à celles des grands modèles, résultat d’un entraînement stratégique avec des données synthétiques personnalisées.
L’entreprise technologique travaille sur des moyens d’apprendre à raisonner les plus petits modèles de langage, ceux qui comportent 10 milliards de paramètres ou moins. Il l’a fait pour la première fois avec Orca, un modèle de 13 milliards de paramètres introduit en juin qui imitait le processus de raisonnement des grands modèles.
C’est désormais le cas avec la prochaine itération, Orca 2, qui est disponible avec 7 milliards de paramètres ou 13 milliards. Il est basé sur le modèle de base Llama 2 – que Microsoft a développé avec Meta -, basé sur des données synthétiques personnalisées.
Les grands modèles, tels que GPT-4 ou PaLm, montrent leur capacité à raisonner en « répondant à des questions complexes, en générant des explications et même en résolvant des problèmes qui nécessitent un raisonnement en plusieurs étapes » ; une capacité qui, selon Microsoft, “n’a pas été observée dans des modèles de langage plus petits”, comme l’indique son blog de recherche.
--L’entreprise technologique a formé Orca 2 selon l’approche selon laquelle les stratégies de solution utilisées par les grands modèles ne sont peut-être pas la meilleure option pour un plus petit. Pour cette raison, il a utilisé un ensemble de données synthétiques « soigneusement filtrées » avec lequel il a enseigné à Orca 2 diverses techniques de raisonnement et différentes stratégies pour résoudre différentes tâches.
Après avoir évalué les performances de ce modèle sur des tâches complexes, Microsoft déclare que « Orca 2 surpasse considérablement les modèles de taille similaire (y compris le modèle Orca original) et atteint des niveaux de performances similaires ou meilleurs que les modèles cinq à dix fois plus grands. »
« Alors que les modèles plus grands continuent d’exceller, notre travail avec Orca 2 marque une étape importante dans la diversification des applications et des options de mise en œuvre des modèles de langage », conclut-il.