Bien que les grands modèles de langage (LLM) soient remarquablement puissants, ils ne sont certainement pas tout-puissants. Comprendre leurs limitations est essentiel pour les utiliser de manière appropriée et éviter les déceptions ou les risques.
Ce guide explore les principales limitations des LLM à travers quatre axes :
L'une des principales limitations d'un LLM réside dans… lui-même. Plus précisément dans son architecture. Pour qu'un modèle soit performant, il doit généralement devenir de plus en plus grand.
Une étude de l'Université de l'Illinois montre la progression des performances de GPT-3.5 à GPT-4 à l'examen du barreau américain :
Taille des modèles :
Cette tendance ne concerne pas seulement OpenAI. Tous les modèles d'IA suivent la même trajectoire :
| Année | Modèle | Taille (paramètres) |
|---|---|---|
| 2018 | ELMo | 94M |
| 2019 | BERT-Large | 340M |
| 2019 | GPT-2 | 1.5B |
| 2020 | T5 | 11B |
| 2020 | GPT-3 | 175B |
| 2021 | Turing-NLG | 17.2B |
| 2022 | Megatron-Turing NLG | 530B |
Plus le modèle est grand, plus la puissance de calcul nécessaire à son entraînement est importante. La taille croissante exige des clusters d'ordinateurs massifs que seules les grandes entreprises peuvent acquérir.
Coûts estimés d'entraînement :
Et ce n'est pas seulement une question de coût, mais aussi de temps. L'entraînement de GPT-4 aurait pris plusieurs mois sur des milliers de GPU.
À mesure que les modèles grossissent, de nouveaux problèmes apparaissent :
Plus les besoins en volume augmentent, plus il devient difficile de trouver des données de haute qualité. Le web contient une quantité limitée de contenu de qualité, et les modèles ont déjà été entraînés sur une grande partie.
Problèmes émergents :
Un modèle plus grand est plus susceptible d'apprendre par cœur plutôt que de comprendre les patterns. C'est ce qu'on appelle l'overfitting : le modèle mémorise les données d'entraînement au lieu de généraliser.
Conséquences :
Conclusion : Avoir un modèle plus grand ne signifie pas forcément de meilleures performances. On ne peut augmenter la taille d'un modèle que si les données augmentent également en qualité et en quantité.
Pour atténuer le risque d'overfitting et éviter de construire des modèles toujours plus grands, les chercheurs ont exploré une autre voie :
Construire de nombreux “mini-modèles” spécialisés sur une tâche spécifique
| Approche | Avantages | Inconvénients |
|---|---|---|
| Modèles généralisés (GPT-4, Claude) | Polyvalents, un seul modèle pour tout | Très coûteux, risque d'overfitting |
| Modèles spécialisés (BERT pour classification, etc.) | Plus faciles à entraîner, plus efficaces sur leur tâche | Ne peuvent faire que ce pour quoi ils ont été conçus |
Usage recommandé : Utiliser un modèle généralisé pour la plupart des tâches, et des modèles spécialisés pour les cas où la précision est critique.
Regardons la fondation de tous les LLM : la couche d'attention (attention layer).
L'architecture est si complexe qu'il devient extrêmement difficile de comprendre comment un modèle est arrivé au résultat qu'il a fourni.
Pourquoi c'est un problème :
Certains papiers de recherche suggèrent des solutions pour interpréter les LLM. Parmi les solutions, utiliser les LLM eux-mêmes pour expliquer leur raisonnement.
Chain-of-Thought (Chaîne de pensée) : Demander au modèle d'expliquer son raisonnement étape par étape.
Prompt standard : "Combien fait 25 * 4 ?" Chain-of-Thought : "Résous ce problème étape par étape : Combien fait 25 * 4 ? 1. D'abord, explique ta méthode 2. Ensuite, calcule 3. Enfin, vérifie ton résultat"
LIME (Local Interpretable Model-agnostic Explanations) : Outil populaire qui aide à expliquer les prédictions de n'importe quel classificateur de machine learning de manière interprétable et fidèle, en l'approximant localement avec un modèle interprétable.
SHAP (SHapley Additive exPlanations) : Exploite la théorie des jeux pour expliquer la sortie de n'importe quel modèle de machine learning. Connecte l'allocation optimale de crédit avec des explications locales en utilisant les valeurs de Shapley classiques de la théorie des jeux.
Integrated Gradients : Technique pour attribuer la prédiction d'un réseau de neurones à ses caractéristiques d'entrée. Particulièrement utile pour les modèles d'apprentissage profond où comprendre la contribution de chaque caractéristique est complexe.
Attention Maps (Cartes d'attention) : Pour les modèles utilisant des mécanismes d'attention (comme les LLM), visualiser les cartes d'attention peut fournir des insights sur quelles parties des données d'entrée le modèle se concentre lors de ses prédictions.
Captum : Bibliothèque open-source créée par Facebook (Meta), qui offre une large gamme d'outils et techniques d'interprétabilité spécifiquement conçus pour les modèles PyTorch. Supporte l'introspection et la compréhension des modèles pour de nombreux types, y compris les LLM.
What-If Tool : Développé par Google, cet outil permet aux utilisateurs d'analyser interactivement les modèles de machine learning pour mieux comprendre les comportements du modèle sous différentes conditions. Particulièrement utile pour explorer les réponses du modèle à différentes variations d'entrée et comprendre les biais potentiels.
Vous pensiez avoir terminé une fois le LLM entraîné ? Détrompez-vous ! Au fil du temps, les performances d'un modèle peuvent se dégrader. C'est ce qu'on appelle le drift (dérive).
Le drift peut se produire de trois manières différentes :
1. Gradual Drift (dérive graduelle) : La plus courante
2. Sudden Drift (dérive soudaine) : Changement brutal
3. Recurring Drift (dérive récurrente) : Effet de la saisonnalité
Le data drift, ou changement de covariables (covariate shift), est le fait que les données en production deviennent de moins en moins représentatives de celles de votre ensemble d'entraînement. En d'autres termes, la distribution des données d'entrée a changé.
Causes courantes :
Détection :
Le data drift arrive souvent. Ce n'est pas une question de “si” mais de “quand”. La seule chose à faire est de définir un seuil au-delà duquel on considère que les données ont trop dévié.
Métriques courantes :
Le target drift (ou concept drift) se produit lorsque les données d'entrée et la variable de sortie perdent leur relation. Le modèle n'est plus représentatif de ce qui se passe dans la réalité.
Exemple concret :
Solution : Réentraînement périodique avec de nouvelles données.
Les LLM peuvent générer du contenu contenant des inexactitudes ou des informations trompeuses, car ils se basent sur les patterns et associations appris de leurs données d'entraînement plutôt que sur une compréhension profonde du sujet.
Exemples d'hallucinations :
Atténuation :
La connaissance d'un LLM est limitée aux données sur lesquelles il a été entraîné, avec une date de coupure (knowledge cutoff). Il ne peut donc pas fournir d'informations en temps réel ou vérifier l'exactitude de ses réponses face à de nouveaux développements.
Dates de coupure courantes :
Solutions :
Les LLM peuvent parfois produire des réponses verbeuses ou réutiliser certaines phrases, rendant le contenu généré répétitif ou moins naturel.
Phrases typiques surutilisées :
Atténuation :
Les LLM, étant des modèles basés sur le texte, ne possèdent pas la capacité d'interagir directement avec des systèmes externes comme des bases de données, des APIs ou d'autres logiciels.
NOTE : Cette limitation est en train d'être résolue avec l'IA agentique et les “function calling” (appel de fonctions), qui permettent aux LLM d'utiliser des outils externes.
L'entraînement et le déploiement de modèles d'IA comme les LLM peuvent nécessiter des ressources informatiques importantes, ce qui peut constituer une barrière à l'entrée pour les petites organisations ou les particuliers.
Coûts typiques :
Impact environnemental :
La sortie du modèle peut être sensible à de légers changements dans la formulation de l'entrée, conduisant à des réponses incohérentes ou à des niveaux de détail variables dans le contenu généré.
Exemple :
Prompt 1 : "Explique-moi la photosynthèse" → Réponse de niveau collège Prompt 2 : "Peux-tu m'expliquer la photosynthèse ?" → Réponse potentiellement différente en ton et détail Prompt 3 : "Photosynthèse - explique" → Réponse plus brève et technique
Les LLM peuvent avoir du mal avec des requêtes ambiguës ou des questions nécessitant une compréhension nuancée du contexte. Dans ces cas, le modèle peut générer du contenu qui semble plausible mais ne répond pas directement à l'intention de l'utilisateur.
Exemple :
Question : "Il fait chaud ici" Réponse possible (mauvaise interprétation) : "Je vais vous donner la température actuelle..." Intention réelle : L'utilisateur veut peut-être qu'on ouvre une fenêtre ou baisse le chauffage
Les LLM peuvent parfois générer du contenu qui manque de conscience contextuelle ou ne parvient pas à prendre en compte les implications plus larges d'un sujet donné. Cela peut aboutir à un contenu qui semble superficiel ou ne tient pas compte de la complexité des situations du monde réel.
Les LLM peuvent avoir des difficultés à maintenir la cohérence dans des contextes conversationnels longs ou lors de réponses à une série de questions interconnectées. Cela peut entraîner des réponses décousues ou contradictoires.
Limites de fenêtre contextuelle :
Plus la conversation est longue, plus le risque d'incohérence augmente.
Les LLM peuvent avoir du mal à interpréter ou générer du langage non littéral, comme les idiomes, métaphores ou le sarcasme. Cela peut aboutir à des réponses trop littérales, manquant le sens voulu, ou ne transmettant pas le ton désiré.
Exemples problématiques :
Les LLM peuvent avoir du mal à engager un raisonnement éthique ou moral. Ils peuvent générer du contenu moralement ambigu ou ne respectant pas les normes éthiques, les rendant inadaptés à certaines applications sans supervision humaine appropriée.
Problèmes potentiels :
Les LLM peuvent avoir du mal à reconnaître et gérer de manière cohérente les entrées inappropriées, nuisibles ou offensantes, générant potentiellement du contenu qui viole les directives éthiques ou les attentes des utilisateurs.
Mesures de protection :
Les LLM manquent de conscience de soi, ce qui signifie qu'ils ne possèdent pas une compréhension de leurs propres limitations, biais ou lacunes de connaissances. Cela peut rendre difficile pour le modèle de générer du contenu qui reconnaît l'incertitude ou indique quand il pourrait fournir des informations incomplètes ou incorrectes.
Conséquence : Les LLM répondent souvent avec confiance même quand ils sont incertains.
L'entraînement et l'exécution de modèles d'IA à grande échelle peuvent consommer des quantités importantes d'énergie, contribuant aux préoccupations environnementales et soulevant des questions sur la durabilité et les implications éthiques de leur utilisation généralisée.
Chiffres clés :
Initiatives de réduction :
En tant que modèle de langage IA, les LLM ont une intelligence émotionnelle limitée, ce qui peut aboutir à du contenu généré manquant d'empathie ou ne reconnaissant et ne répondant pas de manière appropriée au contexte émotionnel d'une requête utilisateur.
Exemples :
Les LLM peuvent ne pas adapter efficacement leur contenu généré au niveau d'expertise ou de familiarité de l'utilisateur avec un sujet spécifique, aboutissant potentiellement à des réponses trop simplistes ou trop techniques qui peuvent ne pas convenir aux besoins de l'utilisateur.
Problème : Sans indication explicite, le LLM ne sait pas s'il s'adresse à un débutant ou à un expert.
Solution : Spécifier le niveau dans le prompt (“Explique-moi comme si j'avais 10 ans” / “Explique en termes techniques”).
Bien que les LLM puissent générer du contenu sur une large gamme de sujets, ils peuvent manquer de la profondeur de connaissance ou d'expertise trouvée dans des modèles d'IA spécifiques à un domaine. Cela peut limiter leur utilité dans des domaines spécialisés où la précision et l'exactitude sont primordiales.
Recommandation : Pour des domaines critiques (médical, juridique, ingénierie), toujours vérifier les informations avec des experts humains.
Bien que les LLM puissent générer du contenu qui semble créatif, leur créativité est finalement limitée par les patterns et associations qu'ils ont appris de leurs données d'entraînement. Cela peut aboutir à du contenu dérivé ou manquant de la nouveauté et de l'originalité trouvées dans les œuvres créatives générées par des humains.
Limites de la créativité :
Les LLM peuvent parfois surgénéraliser lors de la génération de contenu, conduisant à des réponses manquant de nuance ou simplifiant à l'excès des sujets complexes. Cela peut aboutir à du contenu qui semble plausible en surface mais ne parvient pas à aborder avec précision les subtilités d'un sujet donné.
La qualité de sortie des LLM peut varier selon l'entrée et le sujet discuté, conduisant à des incohérences dans le niveau de détail, la cohérence ou la pertinence du contenu généré. Cela peut rendre difficile de prédire les performances du modèle dans différents contextes ou applications.
Bien que les LLM aient une certaine capacité à générer du contenu dans plusieurs langues, ils peuvent avoir du mal à gérer efficacement les requêtes impliquant plusieurs langues dans une seule entrée ou nécessitant des traductions entre langues.
Performance par langue :
Les LLM peuvent avoir du mal à capturer l'intuition humaine, rendant difficile pour le modèle de générer du contenu reflétant la connaissance implicite ou la compréhension tacite sur laquelle les humains s'appuient souvent lors de la communication ou de la prise de décisions.
Les LLM, en tant que modèles de langage à usage général, peuvent ne pas fournir de retour personnalisé adapté aux besoins individuels des utilisateurs ou aux objectifs d'apprentissage. Cela peut limiter leur efficacité dans des contextes éducatifs ou de coaching où des conseils individualisés sont essentiels.
Bien que ces limitations soient réelles, il existe des stratégies pour les atténuer :
✅ Utiliser des modèles appropriés à la tâche : Ne pas toujours choisir le plus grand modèle
✅ Combiner plusieurs modèles : Ensemble learning avec plusieurs LLM
✅ Monitoring continu : Surveiller les performances et détecter le drift
✅ Prompt engineering avancé : Chain-of-thought, few-shot learning
✅ RAG : Ancrer les réponses dans des sources vérifiées
✅ Human-in-the-loop : Supervision humaine pour les décisions critiques
✅ Validation croisée : Comparer les sorties de plusieurs modèles
✅ Formation des utilisateurs : Comprendre les limites et les biais
✅ Processus de validation : Ne jamais faire confiance aveuglément
✅ Documentation : Tracer les décisions et les sources
✅ Audits réguliers : Évaluer les performances et les biais
Études et recherches :
Coûts et impact :
Interprétabilité :
Drift et monitoring :
Outils pratiques :
Les grands modèles de langage sont des outils remarquablement puissants, mais ils restent des outils avec des limitations importantes. Comprendre ces limitations est essentiel pour :
Points clés à retenir :
L'avenir des LLM passe par une meilleure compréhension et atténuation de ces limitations, avec des approches hybrides combinant IA et expertise humaine.