Maison > Nouvelles > Pouvoir de raisonnement compact de l'IA: contestant GPT?

Pouvoir de raisonnement compact de l'IA: contestant GPT?

Auteur：Kristen Mise à jour：May 02,2025

Ces dernières années, la communauté de l'IA a été fascinée par les réalisations remarquables des modèles de grande langue (LLM). Initialement fabriqués pour le traitement du langage naturel, ces modèles se sont transformés en outils de raisonnement sophistiqués capables de résoudre des problèmes complexes avec un processus de réflexion étape par étape semblable au raisonnement humain. Cependant, malgré leurs capacités avancées, les LLM ont des inconvénients notables, y compris des coûts de calcul élevés et des vitesses de déploiement lents, ce qui les rend moins réalisables pour les applications du monde réel dans des paramètres limités en ressources tels que les appareils mobiles ou l'informatique Edge. Cela a suscité un vif intérêt pour le développement de modèles plus petits et plus efficaces qui peuvent fournir des capacités de raisonnement comparables tout en minimisant les coûts et les demandes de ressources. Cet article plonge dans l'émergence de ces petits modèles de raisonnement, explorant leur potentiel, leurs défis et les implications futures du paysage de l'IA.

Un changement de perspective

Pour une période significative dans l'histoire récente de l'IA, le domaine a adhéré au principe des «lois sur l'échelle», qui postule que les performances du modèle s'améliorent prévisibles en tant que données, puissance de calcul et augmentation de la taille du modèle. Bien que cette approche ait en effet produit des modèles puissants, il a également conduit à des compromis considérables, tels que les coûts d'infrastructure élevés, l'impact environnemental et les problèmes de latence. Toutes les applications ne nécessitent pas toutes les capacités de modèles massifs avec des centaines de milliards de paramètres. Dans de nombreux scénarios pratiques - tels que les assistants, les soins de santé et l'éducation sur les appareils - les modèles plus malleurs peuvent obtenir des résultats comparables, à condition qu'ils puissent raisonner efficacement.

Comprendre le raisonnement dans l'IA

Le raisonnement dans l'IA englobe la capacité d'un modèle à suivre les séquences logiques, à comprendre la cause et l'effet, à déduire les implications, à planifier des étapes de procédure et à identifier les contradictions. Pour les modèles de langage, cela implique non seulement de récupérer des informations, mais aussi de manipuler et de déduire les données grâce à une approche structurée et étape par étape. La réalisation de ce niveau de raisonnement nécessite généralement des LLM à réglage fin pour effectuer un raisonnement en plusieurs étapes avant de parvenir à une conclusion. Bien qu'ils soient efficaces, ces méthodes sont à forte intensité de ressources et peuvent être lentes et coûteuses à déployer, ce qui soulève des préoccupations concernant leur accessibilité et leur impact environnemental.

Comprendre les petits modèles de raisonnement

Les petits modèles de raisonnement visent à reproduire les capacités de raisonnement des grands modèles mais avec une plus grande efficacité en termes de puissance de calcul, d'utilisation de la mémoire et de latence. Ces modèles utilisent souvent une technique connue sous le nom de distillation des connaissances, où un modèle plus petit («l'élève») apprend d'un modèle plus grand et pré-formé (le «professeur»). Le processus de distillation consiste à former le modèle plus petit sur les données générées par la plus grande, visant à transférer la capacité de raisonnement. Le modèle étudiant est ensuite affiné pour améliorer ses performances. Dans certains cas, l'apprentissage du renforcement avec des fonctions de récompense spécialisés spécifiques du domaine est utilisé pour affiner davantage la capacité du modèle à effectuer un raisonnement spécifique à la tâche.

La montée et les progrès des petits modèles de raisonnement

Un moment central dans le développement de petits modèles de raisonnement a été marqué par la libération de Deepseek-R1. Formé sur un groupe relativement modeste de GPU plus anciens, Deepseek-R1 a atteint des niveaux de performance comparables à des modèles plus grands comme O1 d'OpenAI sur les références telles que MMLU et GSM-8K. Ce succès a provoqué une réévaluation de l'approche de mise à l'échelle traditionnelle, qui supposait que les modèles plus grands étaient intrinsèquement supérieurs.

Le succès de Deepseek-R1 peut être attribué à son processus de formation innovant, qui combinait l'apprentissage par renforcement à grande échelle sans compter sur un réglage fin supervisé aux premiers stades. Cette innovation a conduit à la création de Deepseek-R1-Zero, un modèle qui présentait des capacités de raisonnement impressionnantes par rapport aux grands modèles de raisonnement. D'autres améliorations, telles que l'utilisation de données de démarrage à froid, ont amélioré la cohérence et l'exécution des tâches du modèle, en particulier dans des domaines tels que les mathématiques et le codage.

De plus, les techniques de distillation se sont révélées déterminantes dans le développement de modèles plus petits et plus efficaces de plus grands. Par exemple, Deepseek a publié des versions distillées de ses modèles, allant de 1,5 milliard à 70 milliards de paramètres. En utilisant ces modèles, les chercheurs ont formé un modèle beaucoup plus petit, Deepseek-R1-Distill-Qwen-32B, qui a surpassé O1-MINI d'OpenAI à divers benchmarks. Ces modèles sont désormais déployables sur le matériel standard, ce qui en fait une option plus viable pour un large éventail d'applications.

Les petits modèles peuvent-ils correspondre à un raisonnement de niveau GPT?

Pour déterminer si les petits modèles de raisonnement (SRM) peuvent correspondre à la puissance de raisonnement des grands modèles (LRM) comme GPT, il est crucial d'évaluer leurs performances sur des références standard. Par exemple, le modèle Deepseek-R1 a obtenu environ 0,844 sur le test MMLU, comparable à des modèles plus grands tels que O1. Sur l'ensemble de données GSM-8K, qui se concentre sur les mathématiques scolaires, le modèle distillé de Deepseek-R1 a atteint des performances de niveau supérieur, dépassant à la fois O1 et O1-MINI.

Dans les tâches de codage, telles que celles de LivecodeBench et CodeForces, les modèles distillés de Deepseek-R1 ont effectué de la même manière que O1-MINI et GPT-4O, démontrant de solides capacités de raisonnement dans la programmation. Cependant, les modèles plus grands présentent toujours un avantage dans les tâches nécessitant une compréhension du langage plus large ou une gestion des fenêtres de contexte long, car les modèles plus petits ont tendance à être plus spécifiques aux tâches.

Malgré leurs forces, les petits modèles peuvent lutter avec des tâches de raisonnement étendues ou face à des données hors distribution. Par exemple, dans les simulations d'échecs LLM, Deepseek-R1 a fait plus d'erreurs que les modèles plus grands, indiquant des limites de sa capacité à maintenir la concentration et la précision sur des périodes prolongées.

Compromis et implications pratiques

Les compromis entre la taille du modèle et les performances sont essentiels lors de la comparaison des SRM avec des LRM de niveau GPT. Les modèles plus petits nécessitent moins de mémoire et de puissance de calcul, ce qui les rend idéaux pour les appareils Edge, les applications mobiles ou les situations où l'inférence hors ligne est nécessaire. Cette efficacité entraîne une baisse des coûts opérationnels, des modèles comme Deepseek-R1 étant jusqu'à 96% moins cher à exécuter que les modèles plus grands comme l'O1.

Cependant, ces gains d'efficacité viennent avec certains compromis. Les modèles plus petits sont généralement affinés pour des tâches spécifiques, ce qui peut limiter leur polyvalence par rapport aux modèles plus grands. Par exemple, alors que Deepseek-R1 excelle en mathématiques et en codage, il manque de capacités multimodales, telles que la capacité d'interpréter des images, que les modèles plus grands comme GPT-4O peuvent gérer.

Malgré ces limites, les applications pratiques de petits modèles de raisonnement sont étendues. Dans les soins de santé, ils peuvent alimenter les outils de diagnostic qui analysent les données médicales sur les serveurs hospitaliers standard. Dans l'éducation, ils peuvent être utilisés pour développer des systèmes de tutorat personnalisés, fournissant des commentaires étape par étape aux étudiants. Dans la recherche scientifique, ils peuvent aider à l'analyse des données et aux tests d'hypothèse dans des domaines comme les mathématiques et la physique. La nature open source de modèles comme Deepseek-R1 favorise également la collaboration et démocratise l'accès à l'IA, permettant aux petites organisations de bénéficier de technologies avancées.

La ligne de fond

L'évolution des modèles linguistiques en modèles de raisonnement plus petits représente un progrès significatif dans l'IA. Bien que ces modèles puissent ne pas encore correspondre aux grandes capacités des modèles de grands langues, ils offrent des avantages clés en matière d'efficacité, de rentabilité et d'accessibilité. En établissant un équilibre entre le pouvoir de raisonnement et l'efficacité des ressources, les modèles plus petits sont prêts à jouer un rôle crucial dans diverses applications, ce qui rend l'IA plus pratique et plus durable pour une utilisation réelle.