Les Coulisses de l'Innovation chez Meta : LLaMA 4

19 January 2025

Introduction

Derrière les modèles d'intelligence artificielle qui font la une des journaux se cachent des équipes de chercheurs passionnés qui repoussent chaque jour les limites du possible. Parmi eux, Thomas Scialom, l'un des architectes français de LLaMA chez Meta, nous ouvre les portes des laboratoires où se dessine l'avenir de l'IA.

L'Émergence d'une Nouvelle Ère

La révolution ChatGPT

Fin 2022, l'annonce de ChatGPT bouleverse le paysage technologique. Chez Meta, l'équipe de Thomas Scialom vient tout juste de lancer Galactica, un modèle de langage spécialisé dans les données scientifiques.

La réaction initiale est mesurée : est-ce simplement un effet de mode ? Mais rapidement, l'évidence s'impose : ChatGPT n'est pas qu'une démonstration technologique, c'est un outil qui répond à de vrais besoins.

La décision stratégique de Zuckerberg

Face à cette nouvelle donne, Mark Zuckerberg prend une décision stratégique majeure début 2023 : Meta doit devenir leader dans ce domaine.

Un investissement colossal de près de 10 milliards de dollars en GPU est déployé pour 2024. Un pari qui s'avérera judicieux, notamment face aux pénuries de matériel qui suivront.

Le Défi de l'Innovation dans l'Inconnu

Une situation inédite

L'équipe de Thomas se trouve alors dans une situation inédite. OpenAI a changé les règles du jeu en sortant non pas un papier de recherche, mais un produit grand public.

Plus troublant encore : la boîte noire est totale. Impossible de savoir :
- Combien a coûté l'entraînement de ChatGPT
- Quelles données ont été utilisées
- Quels algorithmes ont été employés

La fermeture de la recherche

"C'est la première fois que la recherche se ferme à ce point", note Thomas. Même Google, habituellement ouvert avec des projets comme BERT, commence à garder ses avancées secrètes.

Certains chercheurs de Google iraient jusqu'à "avoir honte" si leur travail est publié, le considérant comme peu significatif en comparaison.

La Course Contre la Montre

Le sprint de LLaMA 2

En février 2023, l'équipe de Thomas se lance dans un sprint intense pour développer LLaMA 2, la version conversationnelle de leur modèle. Le temps presse : ils n'ont que quelques mois, de février à juin, pour rattraper leur retard.

Le choix de la méthode d'entraînement

L'un des défis majeurs est le choix de la méthode d'entraînement. Deux approches s'offrent à eux :
- Le "supervised fine-tuning" traditionnel, où des annotateurs humains créent les réponses idéales
- Le "RLHF" (Reinforcement Learning from Human Feedback), où le modèle génère plusieurs réponses et les annotateurs choisissent simplement la meilleure

Une découverte surprenante

Contre toute attente, les tests montrent que le RLHF produit des résultats supérieurs aux annotations humaines directes.

Thomas utilise une analogie parlante : "Si je vous demande d'écrire un haïku sur les modèles de langage en une seconde, peu y arriveraient. Mais nous sommes tous capables de reconnaître un bon haïku quand nous en voyons un."

L'Infrastructure Colossale de Meta

Une puissance de calcul phénoménale

L'ampleur des ressources déployées par Meta pour cette course à l'IA donne le vertige. Le cluster actuel compte plus de 350 000 GPU NVIDIA, une puissance de calcul phénoménale qui permet d'entraîner des modèles toujours plus sophistiqués.

Mais cette infrastructure n'est pas qu'une question de nombre : c'est aussi un défi d'optimisation et d'efficacité énergétique.

L'évolution des besoins

Pour le pré-entraînement de LLaMA 2, l'équipe a dû faire preuve d'ingéniosité pour maximiser l'utilisation de ces ressources.

Thomas révèle qu'à l'époque, ils ont pu s'en sortir avec "seulement" quelques milliers de GPU, un chiffre qui paraît presque modeste aujourd'hui. Cette évolution témoigne de l'accélération fulgurante des besoins en puissance de calcul dans le domaine de l'IA.

L'Avantage Français dans l'IA

Un enchaînement favorable

Un aspect fascinant de cette histoire est la forte présence française dans le domaine de l'IA. Thomas explique ce phénomène par un enchaînement de circonstances favorables.

Les excellentes écoles d'ingénieurs françaises, traditionnellement pourvoyeuses de talents pour la finance, ont vu leurs diplômés se réorienter vers la tech après 2008.

L'écosystème unique de Paris

La présence de Meta à Paris, sous l'impulsion de Yann LeCun, a créé un écosystème unique. Le système CIFRE, permettant de faire une thèse en entreprise, a permis à de nombreux chercheurs de rester en France tout en ayant accès à des ressources de niveau mondial.

Cette combinaison d'excellence académique et d'opportunités industrielles a créé un terreau fertile pour l'innovation en IA.

Les Défis Techniques et Éthiques

Le problème des données d'entraînement

Le développement de modèles de langage toujours plus puissants soulève de nombreux défis. L'un des plus pressants concerne les données d'entraînement.

Les sources traditionnelles comme Internet et YouTube commencent à montrer leurs limites, tant en qualité qu'en quantité.

La solution des données synthétiques

La solution pourrait venir des données synthétiques. L'idée est d'utiliser les modèles existants pour générer de nouvelles données d'entraînement de haute qualité.

Cette approche, bien que prometteuse, soulève des questions sur la diversité et la qualité des données générées.

L'Avenir des Agents IA

Le projet Gaia

Aujourd'hui, Thomas travaille sur la prochaine frontière de l'IA : les agents intelligents. Son projet Gaia (General Assistant) vise à créer des systèmes capables de résoudre des tâches complexes nécessitant plusieurs étapes de raisonnement.

Objectifs ambitieux

L'objectif est ambitieux : permettre aux modèles :
- D'utiliser des outils externes
- De planifier des actions sur plusieurs étapes
- De s'adapter à des situations nouvelles

Thomas est optimiste : "Ce sera résolu en partie l'année prochaine." Cette confiance repose sur les progrès réalisés avec des modèles comme GPT-4 et LLaMA 3, qui fournissent enfin le niveau d'intelligence nécessaire pour faire fonctionner ces systèmes complexes.

La Collaboration avec Mark Zuckerberg

Une implication personnelle remarquable

L'implication personnelle de Mark Zuckerberg dans le développement de l'IA chez Meta mérite d'être soulignée.

Thomas raconte une anecdote révélatrice : lors d'une visite à Paris, Zuckerberg a passé plusieurs heures, de minuit à 4h30 du matin, à discuter en détail des aspects techniques de LLaMA avec huit chercheurs dans un restaurant.

Un atout stratégique

Cette proximité entre la direction et les équipes de recherche est un atout majeur. Elle permet une compréhension fine des enjeux techniques au plus haut niveau de l'entreprise et facilite la prise de décisions stratégiques éclairées.

Le Futur des Modèles de Langage

LLaMA 4 en développement

LLaMA 4 est en développement, même si Thomas reste discret sur les détails. Ce qui est certain, c'est que le modèle sera "meilleur en tout" et intégrera des capacités multimodales avancées.

Une approche pragmatique

L'approche de Meta se distingue par son pragmatisme : plutôt que de se projeter trop loin dans le futur, l'équipe préfère se concentrer sur des améliorations concrètes et réalisables à court terme.

Cette stratégie s'avère payante dans un domaine où l'innovation est constante.

Conclusion

Dans cette course à l'innovation, Meta se distingue par son engagement envers l'open source et sa volonté de démocratiser l'accès à ces technologies.

Comme le souligne Thomas, nous ne sommes qu'au début de cette aventure, et les prochaines années promettent des avancées encore plus spectaculaires dans le domaine de l'intelligence artificielle.