OpenAI veut que l’IA aide les humains à former l’IA

L’un des ingrédients clés qui ont fait du ChatGPT un succès fulgurant était une armée de formateurs humains qui guidaient le modèle d’IA derrière le bot sur ce qui constituait une bonne et une mauvaise réponse. OpenAI affirme désormais que l’ajout d’encore plus d’IA (pour aider les formateurs humains) pourrait contribuer à rendre les assistants IA plus intelligents et plus fiables.

Vint d’abord l’intelligence humaine

En développant ChatGPT, OpenAI a été le pionnier de l’utilisation de l’apprentissage par renforcement avec retour humain, ou RLHF. Cette technique utilise les commentaires d’évaluateurs humains pour affiner un modèle d’IA afin que son résultat soit plus cohérent, moins désagréable et plus précis. Les notes des formateurs alimentent un algorithme qui oriente le comportement du modèle. La technique s’est avérée cruciale à la fois pour réaliser le chatbots être plus fiable et utile pour les empêcher de mal se comporter.

“Le RLHF fonctionne très bien, mais il présente des limites importantes”, explique Nat McAleese, chercheur OpenAI impliqué dans les nouveaux travaux. D’une part, la réponse humaine peut être incohérente. D’un autre côté, il peut être difficile, même pour des personnes qualifiées, d’évaluer des résultats extrêmement complexes, comme un code sophistiqué. logiciel. Le processus peut également optimiser un modèle pour produire des résultats qui semblent convaincants plutôt que réellement précis.

GPT-4

OpenAI a développé un nouveau modèle en ajustant son offre la plus puissante, GPT-4, pour aider les formateurs humains chargés d’évaluer le code. La société a découvert que le nouveau modèle, baptisé CriticGPT, pouvait détecter les bogues manqués par les humains et que les juges humains jugeaient ses critiques de code meilleures dans 63 % des cas. À l’avenir, OpenAI explorera l’extension de l’approche à des domaines autres que le code.

«Nous commençons à travailler sur l’intégration de cette technique dans notre pile de chat RLHF», explique McAleese. Il note que l’approche est imparfaite, car CriticGPT peut également commettre des erreurs en hallucinant, mais ajoute que la technique pourrait aider à rendre les modèles OpenAI, ainsi que des outils comme ChatGPT, plus précis en réduisant les erreurs dans la formation humaine. Il ajoute que cela pourrait également s’avérer crucial pour rendre les modèles d’IA beaucoup plus intelligents, car cela pourrait permettre aux humains de contribuer à former une IA au-delà de ses propres capacités : « Et à mesure que les modèles continuent de s’améliorer, nous pensons que les gens auront besoin de plus d’aide. » selon McAleese.

La nouvelle technique est l’une des nombreuses techniques développées pour améliorer les grands modèles de langage et en tirer le meilleur parti. Cela fait également partie d’un effort visant à garantir que l’IA se comporte de manière acceptable à mesure que ses capacités augmentent.

Plus tôt ce mois-ci, Anthropic, un rival d’OpenAI fondé par d’anciens employés d’OpenAI, a annoncé sa propre version plus performante. chatbot, appelé Claude, grâce aux améliorations apportées au régime de formation du modèle et aux données qui lui sont fournies. Anthropic et OpenAI ont également récemment introduit de nouvelles façons d’inspecter les modèles d’IA pour comprendre comment ils arrivent à leurs résultats et ainsi éviter des comportements indésirables tels que la tromperie.