Les lois de mise à l'échelle des modèles de langage
Le directeur des nouvelles technologies de Microsoft confirme leur pérennité.
Le débat autour des progrès des grands modèles de langage (LLM) fait rage dans la communauté de l'intelligence artificielle. Le directeur des nouvelles technologies de Microsoft, Kevin Scott, affirme que les lois de mise à l'échelle de ces derniers continueront de guider les avancées du secteur, malgré les critiques. Mais qu'en est-il vraiment ?
Les lois de mise à l'échelle: un pilier controversé
Explorées par les chercheurs d'OpenAI en 2020, elles indiquent que les performances des modèles de langage s'améliorent de manière prévisible à mesure qu'ils deviennent plus grands, sont entraînés sur plus de données et disposent de plus de puissance de calcul. Elles suggèrent que l'augmentation de la taille du modèle et des données d'entraînement peut apporter d’importantes améliorations sans nécessiter de percées algorithmiques fondamentales.
Kevin Scott a joué un rôle central dans l'accord technologique de 13 milliards de dollars entre Microsoft et OpenAI. Lors d'une interview récente dans le podcast "Training Data" de Sequoia Capital, il a réitéré sa conviction en ces lois.
"Malgré ce que pensent d'autres personnes, nous n'atteignons pas des rendements marginaux décroissants avec l'échelle", a-t-il déclaré.
Selon lui, les progrès exponentiels ne peuvent être observés que certaines années en raison du temps nécessaire pour construire des superordinateurs et entraîner de nouveaux modèles.
Des critiques persistantes
Malgré son optimisme, certains critiques dans la communauté de l'IA pensent que les progrès des LLM ont atteint un plateau, notamment avec les modèles de la classe GPT-4. Gary Marcus, l’un d’entre eux, a écrit en avril:
"Nous savons tous que GPT-3 était largement meilleur que GPT-2. Et nous savons tous que GPT-4 est largement meilleur que GPT-3. Mais que s'est-il passé depuis ?"
Des observations et des résultats de tests sur des modèles récents comme Gemini 1.5 Pro de Google, Claude Opus d'Anthropic et même le GPT-4o d'OpenAI n'ont pas montré les mêmes avancées spectaculaires que les générations précédentes. Certains pensent que le développement des LLM pourrait approcher des rendements décroissants.
Microsoft toujours confiant
La position de Kevin Scott laisse entendre que Microsoft est toujours confiant dans les investissements massifs dans les modèles d'IA. L'entreprise mise sur des percées continues plutôt que sur un plateau des capacités. La perception d'un ralentissement des progrès pourrait cependant être due à l'apparition rapide de l'IA dans le domaine public. OpenAI a continué à développer des LLM pendant environ trois ans entre la sortie de GPT-3 en 2020 et celle de GPT-4 en 2023. Beaucoup ont perçu un saut rapide en capacités avec le lancement ce dernier. Scott, quant à lui, reste confiant en l'avenir:
"Le prochain échantillon arrive, et je ne peux pas vous dire quand, mais il sera certainement meilleur dans les domaines sensibles actuellement," a-t-il déclaré. “Des choses plus complexes deviendront possibles."
Alors que les débats se poursuivent, une chose est certaine, les yeux de la communauté technologique restent rivés sur les prochains développements des grands modèles de langage. Le temps nous dira si les lois de mise à l'échelle continueront de tenir leurs promesses.