Table des matières

Limitations des grands modèles de langage (LLM)

Limitations des grands modèles de langage (LLM)

Introduction

Bien que les grands modèles de langage (LLM) soient remarquablement puissants, ils ne sont certainement pas tout-puissants. Comprendre leurs limitations est essentiel pour les utiliser de manière appropriée et éviter les déceptions ou les risques.

Ce guide explore les principales limitations des LLM à travers quatre axes :

Architecture des modèles
Gestion des données
Interprétabilité
Fiabilité

Architecture des modèles : plus grand = meilleur ?

Du grand à l'extra-grand

L'une des principales limitations d'un LLM réside dans… lui-même. Plus précisément dans son architecture. Pour qu'un modèle soit performant, il doit généralement devenir de plus en plus grand.

Évolution de la taille des modèles

Une étude de l'Université de l'Illinois montre la progression des performances de GPT-3.5 à GPT-4 à l'examen du barreau américain :

GPT-2 : ~10% de réussite
GPT-3.5 : ~45% de réussite
GPT-4 : ~75% de réussite
Étudiants moyens : ~68% de réussite

Taille des modèles :

ChatGPT-3 : 175 milliards de paramètres
ChatGPT-4 : 1,76 trillion de paramètres (10x plus grand)

Croissance exponentielle de tous les modèles

Cette tendance ne concerne pas seulement OpenAI. Tous les modèles d'IA suivent la même trajectoire :

Année	Modèle	Taille (paramètres)
2018	ELMo	94M
2019	BERT-Large	340M
2019	GPT-2	1.5B
2020	T5	11B
2020	GPT-3	175B
2021	Turing-NLG	17.2B
2022	Megatron-Turing NLG	530B

Le problème de la puissance de calcul

Plus le modèle est grand, plus la puissance de calcul nécessaire à son entraînement est importante. La taille croissante exige des clusters d'ordinateurs massifs que seules les grandes entreprises peuvent acquérir.

Coûts estimés d'entraînement :

GPT-3 : ~4,6 millions de dollars
GPT-4 : estimé à plus de 100 millions de dollars
Modèles futurs : potentiellement des centaines de millions

Et ce n'est pas seulement une question de coût, mais aussi de temps. L'entraînement de GPT-4 aurait pris plusieurs mois sur des milliers de GPU.

Plus grand ≠ forcément meilleur

À mesure que les modèles grossissent, de nouveaux problèmes apparaissent :

1. Qualité des données

Plus les besoins en volume augmentent, plus il devient difficile de trouver des données de haute qualité. Le web contient une quantité limitée de contenu de qualité, et les modèles ont déjà été entraînés sur une grande partie.

Problèmes émergents :

Épuisement des données de qualité disponibles
Risque accru de contamination par du contenu généré par IA
Difficulté à filtrer le bruit et les informations erronées

2. Overfitting (surapprentissage)

Un modèle plus grand est plus susceptible d'apprendre par cœur plutôt que de comprendre les patterns. C'est ce qu'on appelle l'overfitting : le modèle mémorise les données d'entraînement au lieu de généraliser.

Conséquences :

Performance excellente sur les données d'entraînement
Performance décevante sur de nouvelles données
Manque de robustesse face à des variations

Conclusion : Avoir un modèle plus grand ne signifie pas forcément de meilleures performances. On ne peut augmenter la taille d'un modèle que si les données augmentent également en qualité et en quantité.

Alternative : généralisation vs spécialisation

Pour atténuer le risque d'overfitting et éviter de construire des modèles toujours plus grands, les chercheurs ont exploré une autre voie :

Construire de nombreux “mini-modèles” spécialisés sur une tâche spécifique

Approche	Avantages	Inconvénients
Modèles généralisés (GPT-4, Claude)	Polyvalents, un seul modèle pour tout	Très coûteux, risque d'overfitting
Modèles spécialisés (BERT pour classification, etc.)	Plus faciles à entraîner, plus efficaces sur leur tâche	Ne peuvent faire que ce pour quoi ils ont été conçus

Usage recommandé : Utiliser un modèle généralisé pour la plupart des tâches, et des modèles spécialisés pour les cas où la précision est critique.

Interprétabilité et transparence

Le problème de la boîte noire

Regardons la fondation de tous les LLM : la couche d'attention (attention layer).

L'architecture est si complexe qu'il devient extrêmement difficile de comprendre comment un modèle est arrivé au résultat qu'il a fourni.

Pourquoi c'est un problème :

Secteur bancaire : Impossible d'expliquer pourquoi un prêt a été refusé
RGPD : L'article 22 exige le droit à l'explication des décisions automatisées
Médical : Nécessité de comprendre le raisonnement pour des diagnostics
Juridique : Besoin de traçabilité et de justification des décisions

Solutions d'interprétabilité

Certains papiers de recherche suggèrent des solutions pour interpréter les LLM. Parmi les solutions, utiliser les LLM eux-mêmes pour expliquer leur raisonnement.

Techniques de prompt engineering

Chain-of-Thought (Chaîne de pensée) : Demander au modèle d'expliquer son raisonnement étape par étape.

Prompt standard :
"Combien fait 25 * 4 ?"

Chain-of-Thought :
"Résous ce problème étape par étape : Combien fait 25 * 4 ?
1. D'abord, explique ta méthode
2. Ensuite, calcule
3. Enfin, vérifie ton résultat"

Outils d'interprétabilité

LIME (Local Interpretable Model-agnostic Explanations) : Outil populaire qui aide à expliquer les prédictions de n'importe quel classificateur de machine learning de manière interprétable et fidèle, en l'approximant localement avec un modèle interprétable.

SHAP (SHapley Additive exPlanations) : Exploite la théorie des jeux pour expliquer la sortie de n'importe quel modèle de machine learning. Connecte l'allocation optimale de crédit avec des explications locales en utilisant les valeurs de Shapley classiques de la théorie des jeux.

Integrated Gradients : Technique pour attribuer la prédiction d'un réseau de neurones à ses caractéristiques d'entrée. Particulièrement utile pour les modèles d'apprentissage profond où comprendre la contribution de chaque caractéristique est complexe.

Attention Maps (Cartes d'attention) : Pour les modèles utilisant des mécanismes d'attention (comme les LLM), visualiser les cartes d'attention peut fournir des insights sur quelles parties des données d'entrée le modèle se concentre lors de ses prédictions.

Captum : Bibliothèque open-source créée par Facebook (Meta), qui offre une large gamme d'outils et techniques d'interprétabilité spécifiquement conçus pour les modèles PyTorch. Supporte l'introspection et la compréhension des modèles pour de nombreux types, y compris les LLM.

What-If Tool : Développé par Google, cet outil permet aux utilisateurs d'analyser interactivement les modèles de machine learning pour mieux comprendre les comportements du modèle sous différentes conditions. Particulièrement utile pour explorer les réponses du modèle à différentes variations d'entrée et comprendre les biais potentiels.

Drift (dérive des performances)

Vous pensiez avoir terminé une fois le LLM entraîné ? Détrompez-vous ! Au fil du temps, les performances d'un modèle peuvent se dégrader. C'est ce qu'on appelle le drift (dérive).

Types de drift

Le drift peut se produire de trois manières différentes :

1. Gradual Drift (dérive graduelle) : La plus courante

Les choses changent avec le temps
Les données sont affectées par ces changements
Exemple : Évolution du langage, nouveaux produits, changement de tendances

2. Sudden Drift (dérive soudaine) : Changement brutal

Se produit lorsque quelque chose de majeur change
Exemple : Crise COVID-19, changement réglementaire majeur, événement géopolitique

3. Recurring Drift (dérive récurrente) : Effet de la saisonnalité

Patterns qui reviennent périodiquement
Exemple : Variations saisonnières (Noël, été, rentrée scolaire)

Data Drift (dérive des données)

Le data drift, ou changement de covariables (covariate shift), est le fait que les données en production deviennent de moins en moins représentatives de celles de votre ensemble d'entraînement. En d'autres termes, la distribution des données d'entrée a changé.

Causes courantes :

Événements mondiaux : COVID-19, crises économiques, changements politiques
Contexte d'application différent : Utilisation du modèle dans un environnement différent de celui prévu
Biais du training set : L'ensemble d'entraînement n'était pas représentatif dès le départ
Évolution des comportements utilisateurs : Les gens changent leur façon d'interagir avec le système

Détection :

Le data drift arrive souvent. Ce n'est pas une question de “si” mais de “quand”. La seule chose à faire est de définir un seuil au-delà duquel on considère que les données ont trop dévié.

Métriques courantes :

Distribution des features (KL divergence, Jensen-Shannon divergence)
Tests statistiques (Kolmogorov-Smirnov, Chi-carré)
Monitoring des distributions d'entrée

Target Drift (dérive de la cible)

Le target drift (ou concept drift) se produit lorsque les données d'entrée et la variable de sortie perdent leur relation. Le modèle n'est plus représentatif de ce qui se passe dans la réalité.

Exemple concret :

Un modèle prédit la probabilité qu'un email soit du spam
Les techniques de spam évoluent (nouveaux mots-clés, nouvelles stratégies)
Les anciens patterns ne sont plus valides
Le modèle devient inefficace

Solution : Réentraînement périodique avec de nouvelles données.

Limitations techniques et opérationnelles

1. Informations inexactes ou trompeuses (Hallucinations)

Les LLM peuvent générer du contenu contenant des inexactitudes ou des informations trompeuses, car ils se basent sur les patterns et associations appris de leurs données d'entraînement plutôt que sur une compréhension profonde du sujet.

Exemples d'hallucinations :

Inventer des références bibliographiques qui n'existent pas
Citer des statistiques erronées avec confiance
Créer des faits plausibles mais totalement faux
Mélanger des informations de sources différentes de manière incohérente

Atténuation :

Utiliser le RAG pour ancrer les réponses dans des sources vérifiées
Demander des citations et vérifier les sources
Utiliser plusieurs modèles et comparer les réponses
Ne jamais faire confiance aveuglément aux informations critiques

2. Absence de mises à jour en temps réel

La connaissance d'un LLM est limitée aux données sur lesquelles il a été entraîné, avec une date de coupure (knowledge cutoff). Il ne peut donc pas fournir d'informations en temps réel ou vérifier l'exactitude de ses réponses face à de nouveaux développements.

Dates de coupure courantes :

GPT-4 : Avril 2023
Claude 3 : Août 2023
Gemini : Avril 2023 (variable selon les versions)

Solutions :

Intégration avec des outils de recherche web
RAG avec bases de données à jour
Systèmes hybrides LLM + API externes

3. Verbosité et répétition de certaines phrases

Les LLM peuvent parfois produire des réponses verbeuses ou réutiliser certaines phrases, rendant le contenu généré répétitif ou moins naturel.

Phrases typiques surutilisées :

“Il est important de noter que…”
“En tant que modèle de langage IA…”
“Cela dépend de divers facteurs…”
“D'une part… d'autre part…”

Atténuation :

Prompt engineering spécifique pour demander la concision
Post-traitement pour détecter et éliminer les répétitions
Fine-tuning sur un style d'écriture spécifique

4. Incapacité à interagir avec des systèmes externes

Les LLM, étant des modèles basés sur le texte, ne possèdent pas la capacité d'interagir directement avec des systèmes externes comme des bases de données, des APIs ou d'autres logiciels.

NOTE : Cette limitation est en train d'être résolue avec l'IA agentique et les “function calling” (appel de fonctions), qui permettent aux LLM d'utiliser des outils externes.

5. Exigences en ressources pour l'entraînement et le déploiement

L'entraînement et le déploiement de modèles d'IA comme les LLM peuvent nécessiter des ressources informatiques importantes, ce qui peut constituer une barrière à l'entrée pour les petites organisations ou les particuliers.

Coûts typiques :

Entraînement d'un grand modèle : Millions à centaines de millions de dollars
Inférence (utilisation) : $0.002 à $0.10 par 1000 tokens selon le modèle
Infrastructure : Serveurs GPU spécialisés, clusters de calcul

Impact environnemental :

Entraînement de GPT-3 : ~552 tonnes de CO2
Utilisation quotidienne : Plusieurs MWh d'électricité pour les grands déploiements

Limitations de compréhension contextuelle

1. Sensibilité à la formulation de l'entrée

La sortie du modèle peut être sensible à de légers changements dans la formulation de l'entrée, conduisant à des réponses incohérentes ou à des niveaux de détail variables dans le contenu généré.

Exemple :

Prompt 1 : "Explique-moi la photosynthèse"
→ Réponse de niveau collège

Prompt 2 : "Peux-tu m'expliquer la photosynthèse ?"
→ Réponse potentiellement différente en ton et détail

Prompt 3 : "Photosynthèse - explique"
→ Réponse plus brève et technique

2. Difficulté avec les requêtes ambiguës

Les LLM peuvent avoir du mal avec des requêtes ambiguës ou des questions nécessitant une compréhension nuancée du contexte. Dans ces cas, le modèle peut générer du contenu qui semble plausible mais ne répond pas directement à l'intention de l'utilisateur.

Exemple :

Question : "Il fait chaud ici"
Réponse possible (mauvaise interprétation) : "Je vais vous donner la température actuelle..."
Intention réelle : L'utilisateur veut peut-être qu'on ouvre une fenêtre ou baisse le chauffage

3. Manque de conscience contextuelle

Les LLM peuvent parfois générer du contenu qui manque de conscience contextuelle ou ne parvient pas à prendre en compte les implications plus larges d'un sujet donné. Cela peut aboutir à un contenu qui semble superficiel ou ne tient pas compte de la complexité des situations du monde réel.

4. Contextes conversationnels longs

Les LLM peuvent avoir des difficultés à maintenir la cohérence dans des contextes conversationnels longs ou lors de réponses à une série de questions interconnectées. Cela peut entraîner des réponses décousues ou contradictoires.

Limites de fenêtre contextuelle :

GPT-3.5 : 4K tokens (~3000 mots)
GPT-4 : 8K-32K tokens
Claude 3 : 200K tokens
Gemini 1.5 : 1M tokens

Plus la conversation est longue, plus le risque d'incohérence augmente.

5. Difficulté avec le langage non littéral

Les LLM peuvent avoir du mal à interpréter ou générer du langage non littéral, comme les idiomes, métaphores ou le sarcasme. Cela peut aboutir à des réponses trop littérales, manquant le sens voulu, ou ne transmettant pas le ton désiré.

Exemples problématiques :

Idiomes : “Il pleut des cordes” interprété littéralement
Sarcasme : Difficulté à détecter le ton ironique
Métaphores : Incompréhension des comparaisons abstraites

Considérations éthiques et sociales

1. Raisonnement éthique et moral

Les LLM peuvent avoir du mal à engager un raisonnement éthique ou moral. Ils peuvent générer du contenu moralement ambigu ou ne respectant pas les normes éthiques, les rendant inadaptés à certaines applications sans supervision humaine appropriée.

Problèmes potentiels :

Réponses moralement neutres sur des questions éthiques importantes
Incapacité à comprendre les nuances culturelles
Risque de normaliser des comportements problématiques

2. Réponse aux requêtes inappropriées ou nuisibles

Les LLM peuvent avoir du mal à reconnaître et gérer de manière cohérente les entrées inappropriées, nuisibles ou offensantes, générant potentiellement du contenu qui viole les directives éthiques ou les attentes des utilisateurs.

Mesures de protection :

Filtres de contenu en amont et en aval
Modération humaine pour les cas sensibles
Fine-tuning avec RLHF (Reinforcement Learning from Human Feedback)

3. Manque de conscience de soi

Les LLM manquent de conscience de soi, ce qui signifie qu'ils ne possèdent pas une compréhension de leurs propres limitations, biais ou lacunes de connaissances. Cela peut rendre difficile pour le modèle de générer du contenu qui reconnaît l'incertitude ou indique quand il pourrait fournir des informations incomplètes ou incorrectes.

Conséquence : Les LLM répondent souvent avec confiance même quand ils sont incertains.

4. Consommation d'énergie et impact environnemental

L'entraînement et l'exécution de modèles d'IA à grande échelle peuvent consommer des quantités importantes d'énergie, contribuant aux préoccupations environnementales et soulevant des questions sur la durabilité et les implications éthiques de leur utilisation généralisée.

Chiffres clés :

Entraînement de GPT-3 : ~1 287 MWh (équivalent à 126 foyers danois pendant un an)
Empreinte carbone : Équivalent à ~552 tonnes de CO2
Utilisation quotidienne : Des millions de requêtes consommant de l'énergie en continu

Initiatives de réduction :

Modèles plus efficaces (distillation)
Datacenters alimentés en énergies renouvelables
Optimisation des infrastructures

Limitations cognitives et créatives

1. Intelligence émotionnelle limitée

En tant que modèle de langage IA, les LLM ont une intelligence émotionnelle limitée, ce qui peut aboutir à du contenu généré manquant d'empathie ou ne reconnaissant et ne répondant pas de manière appropriée au contexte émotionnel d'une requête utilisateur.

Exemples :

Réponses insensibles à des situations de détresse
Incapacité à détecter la frustration ou l'urgence
Ton inapproprié pour des sujets sensibles

2. Difficulté à reconnaître et s'adapter à l'expertise de l'utilisateur

Les LLM peuvent ne pas adapter efficacement leur contenu généré au niveau d'expertise ou de familiarité de l'utilisateur avec un sujet spécifique, aboutissant potentiellement à des réponses trop simplistes ou trop techniques qui peuvent ne pas convenir aux besoins de l'utilisateur.

Problème : Sans indication explicite, le LLM ne sait pas s'il s'adresse à un débutant ou à un expert.

Solution : Spécifier le niveau dans le prompt (“Explique-moi comme si j'avais 10 ans” / “Explique en termes techniques”).

3. Expertise limitée dans des domaines spécifiques

Bien que les LLM puissent générer du contenu sur une large gamme de sujets, ils peuvent manquer de la profondeur de connaissance ou d'expertise trouvée dans des modèles d'IA spécifiques à un domaine. Cela peut limiter leur utilité dans des domaines spécialisés où la précision et l'exactitude sont primordiales.

Recommandation : Pour des domaines critiques (médical, juridique, ingénierie), toujours vérifier les informations avec des experts humains.

4. Créativité limitée

Bien que les LLM puissent générer du contenu qui semble créatif, leur créativité est finalement limitée par les patterns et associations qu'ils ont appris de leurs données d'entraînement. Cela peut aboutir à du contenu dérivé ou manquant de la nouveauté et de l'originalité trouvées dans les œuvres créatives générées par des humains.

Limites de la créativité :

Reproduction de patterns existants
Difficulté avec la véritable innovation
Manque d'intuition artistique ou émotionnelle

5. Surgénéralisation

Les LLM peuvent parfois surgénéraliser lors de la génération de contenu, conduisant à des réponses manquant de nuance ou simplifiant à l'excès des sujets complexes. Cela peut aboutir à du contenu qui semble plausible en surface mais ne parvient pas à aborder avec précision les subtilités d'un sujet donné.

6. Incohérence de la qualité

La qualité de sortie des LLM peut varier selon l'entrée et le sujet discuté, conduisant à des incohérences dans le niveau de détail, la cohérence ou la pertinence du contenu généré. Cela peut rendre difficile de prédire les performances du modèle dans différents contextes ou applications.

Limitations linguistiques et d'interaction

1. Incapacité à gérer les requêtes multilingues

Bien que les LLM aient une certaine capacité à générer du contenu dans plusieurs langues, ils peuvent avoir du mal à gérer efficacement les requêtes impliquant plusieurs langues dans une seule entrée ou nécessitant des traductions entre langues.

Performance par langue :

Excellente : Anglais (la majorité des données d'entraînement)
Bonne : Langues européennes majeures (français, espagnol, allemand)
Variable : Langues asiatiques, arabe
Limitée : Langues à faibles ressources

2. Difficulté à capturer l'intuition humaine

Les LLM peuvent avoir du mal à capturer l'intuition humaine, rendant difficile pour le modèle de générer du contenu reflétant la connaissance implicite ou la compréhension tacite sur laquelle les humains s'appuient souvent lors de la communication ou de la prise de décisions.

3. Manque de retour personnalisé

Les LLM, en tant que modèles de langage à usage général, peuvent ne pas fournir de retour personnalisé adapté aux besoins individuels des utilisateurs ou aux objectifs d'apprentissage. Cela peut limiter leur efficacité dans des contextes éducatifs ou de coaching où des conseils individualisés sont essentiels.

Stratégies d'atténuation

Bien que ces limitations soient réelles, il existe des stratégies pour les atténuer :

Au niveau de l'architecture

✅ Utiliser des modèles appropriés à la tâche : Ne pas toujours choisir le plus grand modèle

✅ Combiner plusieurs modèles : Ensemble learning avec plusieurs LLM

✅ Monitoring continu : Surveiller les performances et détecter le drift

Au niveau de l'utilisation

✅ Prompt engineering avancé : Chain-of-thought, few-shot learning

✅ RAG : Ancrer les réponses dans des sources vérifiées

✅ Human-in-the-loop : Supervision humaine pour les décisions critiques

✅ Validation croisée : Comparer les sorties de plusieurs modèles

Au niveau organisationnel

✅ Formation des utilisateurs : Comprendre les limites et les biais

✅ Processus de validation : Ne jamais faire confiance aveuglément

✅ Documentation : Tracer les décisions et les sources

✅ Audits réguliers : Évaluer les performances et les biais

Ressources complémentaires

Études et recherches :

Coûts et impact :

How Much Does it Cost to Train an LLM
Impact environnemental des LLM

Interprétabilité :

Drift et monitoring :

Outils pratiques :

Captum - Interprétabilité pour PyTorch
SHAP - Explications de modèles
LIME - Explications locales

Conclusion

Les grands modèles de langage sont des outils remarquablement puissants, mais ils restent des outils avec des limitations importantes. Comprendre ces limitations est essentiel pour :

Utiliser les LLM de manière appropriée : Choisir les bons cas d'usage
Éviter les risques : Mettre en place des garde-fous adéquats
Optimiser les performances : Combiner les LLM avec d'autres techniques (RAG, fine-tuning)
Maintenir la confiance : Transparence sur les capacités et limites

Points clés à retenir :

Plus grand ne signifie pas forcément meilleur
L'interprétabilité reste un défi majeur
Le drift est inévitable et doit être surveillé
Les limitations contextuelles nécessitent une supervision humaine
Les considérations éthiques et environnementales sont essentielles

L'avenir des LLM passe par une meilleure compréhension et atténuation de ces limitations, avec des approches hybrides combinant IA et expertise humaine.