Table des matières

Limitations des grands modèles de langage (LLM)

Introduction

Bien que les grands modèles de langage (LLM) soient remarquablement puissants, ils ne sont certainement pas tout-puissants. Comprendre leurs limitations est essentiel pour les utiliser de manière appropriée et éviter les déceptions ou les risques.

Ce guide explore les principales limitations des LLM à travers quatre axes :

Architecture des modèles : plus grand = meilleur ?

Du grand à l'extra-grand

L'une des principales limitations d'un LLM réside dans… lui-même. Plus précisément dans son architecture. Pour qu'un modèle soit performant, il doit généralement devenir de plus en plus grand.

Évolution de la taille des modèles

Une étude de l'Université de l'Illinois montre la progression des performances de GPT-3.5 à GPT-4 à l'examen du barreau américain :

Taille des modèles :

Croissance exponentielle de tous les modèles

Cette tendance ne concerne pas seulement OpenAI. Tous les modèles d'IA suivent la même trajectoire :

Année Modèle Taille (paramètres)
2018 ELMo 94M
2019 BERT-Large 340M
2019 GPT-2 1.5B
2020 T5 11B
2020 GPT-3 175B
2021 Turing-NLG 17.2B
2022 Megatron-Turing NLG 530B

Le problème de la puissance de calcul

Plus le modèle est grand, plus la puissance de calcul nécessaire à son entraînement est importante. La taille croissante exige des clusters d'ordinateurs massifs que seules les grandes entreprises peuvent acquérir.

Coûts estimés d'entraînement :

Et ce n'est pas seulement une question de coût, mais aussi de temps. L'entraînement de GPT-4 aurait pris plusieurs mois sur des milliers de GPU.

Plus grand ≠ forcément meilleur

À mesure que les modèles grossissent, de nouveaux problèmes apparaissent :

1. Qualité des données

Plus les besoins en volume augmentent, plus il devient difficile de trouver des données de haute qualité. Le web contient une quantité limitée de contenu de qualité, et les modèles ont déjà été entraînés sur une grande partie.

Problèmes émergents :

2. Overfitting (surapprentissage)

Un modèle plus grand est plus susceptible d'apprendre par cœur plutôt que de comprendre les patterns. C'est ce qu'on appelle l'overfitting : le modèle mémorise les données d'entraînement au lieu de généraliser.

Conséquences :

Conclusion : Avoir un modèle plus grand ne signifie pas forcément de meilleures performances. On ne peut augmenter la taille d'un modèle que si les données augmentent également en qualité et en quantité.

Alternative : généralisation vs spécialisation

Pour atténuer le risque d'overfitting et éviter de construire des modèles toujours plus grands, les chercheurs ont exploré une autre voie :

Construire de nombreux “mini-modèles” spécialisés sur une tâche spécifique

Approche Avantages Inconvénients
Modèles généralisés (GPT-4, Claude) Polyvalents, un seul modèle pour tout Très coûteux, risque d'overfitting
Modèles spécialisés (BERT pour classification, etc.) Plus faciles à entraîner, plus efficaces sur leur tâche Ne peuvent faire que ce pour quoi ils ont été conçus

Usage recommandé : Utiliser un modèle généralisé pour la plupart des tâches, et des modèles spécialisés pour les cas où la précision est critique.

Interprétabilité et transparence

Le problème de la boîte noire

Regardons la fondation de tous les LLM : la couche d'attention (attention layer).

Mécanisme d'attention des transformers

L'architecture est si complexe qu'il devient extrêmement difficile de comprendre comment un modèle est arrivé au résultat qu'il a fourni.

Pourquoi c'est un problème :

Solutions d'interprétabilité

Certains papiers de recherche suggèrent des solutions pour interpréter les LLM. Parmi les solutions, utiliser les LLM eux-mêmes pour expliquer leur raisonnement.

Techniques de prompt engineering

Chain-of-Thought (Chaîne de pensée) : Demander au modèle d'expliquer son raisonnement étape par étape.

Prompt standard :
"Combien fait 25 * 4 ?"

Chain-of-Thought :
"Résous ce problème étape par étape : Combien fait 25 * 4 ?
1. D'abord, explique ta méthode
2. Ensuite, calcule
3. Enfin, vérifie ton résultat"

Outils d'interprétabilité

LIME (Local Interpretable Model-agnostic Explanations) : Outil populaire qui aide à expliquer les prédictions de n'importe quel classificateur de machine learning de manière interprétable et fidèle, en l'approximant localement avec un modèle interprétable.

SHAP (SHapley Additive exPlanations) : Exploite la théorie des jeux pour expliquer la sortie de n'importe quel modèle de machine learning. Connecte l'allocation optimale de crédit avec des explications locales en utilisant les valeurs de Shapley classiques de la théorie des jeux.

Integrated Gradients : Technique pour attribuer la prédiction d'un réseau de neurones à ses caractéristiques d'entrée. Particulièrement utile pour les modèles d'apprentissage profond où comprendre la contribution de chaque caractéristique est complexe.

Attention Maps (Cartes d'attention) : Pour les modèles utilisant des mécanismes d'attention (comme les LLM), visualiser les cartes d'attention peut fournir des insights sur quelles parties des données d'entrée le modèle se concentre lors de ses prédictions.

Captum : Bibliothèque open-source créée par Facebook (Meta), qui offre une large gamme d'outils et techniques d'interprétabilité spécifiquement conçus pour les modèles PyTorch. Supporte l'introspection et la compréhension des modèles pour de nombreux types, y compris les LLM.

What-If Tool : Développé par Google, cet outil permet aux utilisateurs d'analyser interactivement les modèles de machine learning pour mieux comprendre les comportements du modèle sous différentes conditions. Particulièrement utile pour explorer les réponses du modèle à différentes variations d'entrée et comprendre les biais potentiels.

Drift (dérive des performances)

Vous pensiez avoir terminé une fois le LLM entraîné ? Détrompez-vous ! Au fil du temps, les performances d'un modèle peuvent se dégrader. C'est ce qu'on appelle le drift (dérive).

Types de drift

Le drift peut se produire de trois manières différentes :

1. Gradual Drift (dérive graduelle) : La plus courante

2. Sudden Drift (dérive soudaine) : Changement brutal

3. Recurring Drift (dérive récurrente) : Effet de la saisonnalité

Types de drift

Data Drift (dérive des données)

Le data drift, ou changement de covariables (covariate shift), est le fait que les données en production deviennent de moins en moins représentatives de celles de votre ensemble d'entraînement. En d'autres termes, la distribution des données d'entrée a changé.

Causes courantes :

Détection :

Le data drift arrive souvent. Ce n'est pas une question de “si” mais de “quand”. La seule chose à faire est de définir un seuil au-delà duquel on considère que les données ont trop dévié.

Métriques courantes :

Target Drift (dérive de la cible)

Le target drift (ou concept drift) se produit lorsque les données d'entrée et la variable de sortie perdent leur relation. Le modèle n'est plus représentatif de ce qui se passe dans la réalité.

Exemple concret :

Solution : Réentraînement périodique avec de nouvelles données.

Limitations techniques et opérationnelles

1. Informations inexactes ou trompeuses (Hallucinations)

Les LLM peuvent générer du contenu contenant des inexactitudes ou des informations trompeuses, car ils se basent sur les patterns et associations appris de leurs données d'entraînement plutôt que sur une compréhension profonde du sujet.

Exemples d'hallucinations :

Atténuation :

2. Absence de mises à jour en temps réel

La connaissance d'un LLM est limitée aux données sur lesquelles il a été entraîné, avec une date de coupure (knowledge cutoff). Il ne peut donc pas fournir d'informations en temps réel ou vérifier l'exactitude de ses réponses face à de nouveaux développements.

Dates de coupure courantes :

Solutions :

3. Verbosité et répétition de certaines phrases

Les LLM peuvent parfois produire des réponses verbeuses ou réutiliser certaines phrases, rendant le contenu généré répétitif ou moins naturel.

Phrases typiques surutilisées :

Atténuation :

4. Incapacité à interagir avec des systèmes externes

Les LLM, étant des modèles basés sur le texte, ne possèdent pas la capacité d'interagir directement avec des systèmes externes comme des bases de données, des APIs ou d'autres logiciels.

NOTE : Cette limitation est en train d'être résolue avec l'IA agentique et les “function calling” (appel de fonctions), qui permettent aux LLM d'utiliser des outils externes.

5. Exigences en ressources pour l'entraînement et le déploiement

L'entraînement et le déploiement de modèles d'IA comme les LLM peuvent nécessiter des ressources informatiques importantes, ce qui peut constituer une barrière à l'entrée pour les petites organisations ou les particuliers.

Coûts typiques :

Impact environnemental :

Limitations de compréhension contextuelle

1. Sensibilité à la formulation de l'entrée

La sortie du modèle peut être sensible à de légers changements dans la formulation de l'entrée, conduisant à des réponses incohérentes ou à des niveaux de détail variables dans le contenu généré.

Exemple :

Prompt 1 : "Explique-moi la photosynthèse"
→ Réponse de niveau collège

Prompt 2 : "Peux-tu m'expliquer la photosynthèse ?"
→ Réponse potentiellement différente en ton et détail

Prompt 3 : "Photosynthèse - explique"
→ Réponse plus brève et technique

2. Difficulté avec les requêtes ambiguës

Les LLM peuvent avoir du mal avec des requêtes ambiguës ou des questions nécessitant une compréhension nuancée du contexte. Dans ces cas, le modèle peut générer du contenu qui semble plausible mais ne répond pas directement à l'intention de l'utilisateur.

Exemple :

Question : "Il fait chaud ici"
Réponse possible (mauvaise interprétation) : "Je vais vous donner la température actuelle..."
Intention réelle : L'utilisateur veut peut-être qu'on ouvre une fenêtre ou baisse le chauffage

3. Manque de conscience contextuelle

Les LLM peuvent parfois générer du contenu qui manque de conscience contextuelle ou ne parvient pas à prendre en compte les implications plus larges d'un sujet donné. Cela peut aboutir à un contenu qui semble superficiel ou ne tient pas compte de la complexité des situations du monde réel.

4. Contextes conversationnels longs

Les LLM peuvent avoir des difficultés à maintenir la cohérence dans des contextes conversationnels longs ou lors de réponses à une série de questions interconnectées. Cela peut entraîner des réponses décousues ou contradictoires.

Limites de fenêtre contextuelle :

Plus la conversation est longue, plus le risque d'incohérence augmente.

5. Difficulté avec le langage non littéral

Les LLM peuvent avoir du mal à interpréter ou générer du langage non littéral, comme les idiomes, métaphores ou le sarcasme. Cela peut aboutir à des réponses trop littérales, manquant le sens voulu, ou ne transmettant pas le ton désiré.

Exemples problématiques :

Considérations éthiques et sociales

1. Raisonnement éthique et moral

Les LLM peuvent avoir du mal à engager un raisonnement éthique ou moral. Ils peuvent générer du contenu moralement ambigu ou ne respectant pas les normes éthiques, les rendant inadaptés à certaines applications sans supervision humaine appropriée.

Problèmes potentiels :

2. Réponse aux requêtes inappropriées ou nuisibles

Les LLM peuvent avoir du mal à reconnaître et gérer de manière cohérente les entrées inappropriées, nuisibles ou offensantes, générant potentiellement du contenu qui viole les directives éthiques ou les attentes des utilisateurs.

Mesures de protection :

3. Manque de conscience de soi

Les LLM manquent de conscience de soi, ce qui signifie qu'ils ne possèdent pas une compréhension de leurs propres limitations, biais ou lacunes de connaissances. Cela peut rendre difficile pour le modèle de générer du contenu qui reconnaît l'incertitude ou indique quand il pourrait fournir des informations incomplètes ou incorrectes.

Conséquence : Les LLM répondent souvent avec confiance même quand ils sont incertains.

4. Consommation d'énergie et impact environnemental

L'entraînement et l'exécution de modèles d'IA à grande échelle peuvent consommer des quantités importantes d'énergie, contribuant aux préoccupations environnementales et soulevant des questions sur la durabilité et les implications éthiques de leur utilisation généralisée.

Chiffres clés :

Initiatives de réduction :

Limitations cognitives et créatives

1. Intelligence émotionnelle limitée

En tant que modèle de langage IA, les LLM ont une intelligence émotionnelle limitée, ce qui peut aboutir à du contenu généré manquant d'empathie ou ne reconnaissant et ne répondant pas de manière appropriée au contexte émotionnel d'une requête utilisateur.

Exemples :

2. Difficulté à reconnaître et s'adapter à l'expertise de l'utilisateur

Les LLM peuvent ne pas adapter efficacement leur contenu généré au niveau d'expertise ou de familiarité de l'utilisateur avec un sujet spécifique, aboutissant potentiellement à des réponses trop simplistes ou trop techniques qui peuvent ne pas convenir aux besoins de l'utilisateur.

Problème : Sans indication explicite, le LLM ne sait pas s'il s'adresse à un débutant ou à un expert.

Solution : Spécifier le niveau dans le prompt (“Explique-moi comme si j'avais 10 ans” / “Explique en termes techniques”).

3. Expertise limitée dans des domaines spécifiques

Bien que les LLM puissent générer du contenu sur une large gamme de sujets, ils peuvent manquer de la profondeur de connaissance ou d'expertise trouvée dans des modèles d'IA spécifiques à un domaine. Cela peut limiter leur utilité dans des domaines spécialisés où la précision et l'exactitude sont primordiales.

Recommandation : Pour des domaines critiques (médical, juridique, ingénierie), toujours vérifier les informations avec des experts humains.

4. Créativité limitée

Bien que les LLM puissent générer du contenu qui semble créatif, leur créativité est finalement limitée par les patterns et associations qu'ils ont appris de leurs données d'entraînement. Cela peut aboutir à du contenu dérivé ou manquant de la nouveauté et de l'originalité trouvées dans les œuvres créatives générées par des humains.

Limites de la créativité :

5. Surgénéralisation

Les LLM peuvent parfois surgénéraliser lors de la génération de contenu, conduisant à des réponses manquant de nuance ou simplifiant à l'excès des sujets complexes. Cela peut aboutir à du contenu qui semble plausible en surface mais ne parvient pas à aborder avec précision les subtilités d'un sujet donné.

6. Incohérence de la qualité

La qualité de sortie des LLM peut varier selon l'entrée et le sujet discuté, conduisant à des incohérences dans le niveau de détail, la cohérence ou la pertinence du contenu généré. Cela peut rendre difficile de prédire les performances du modèle dans différents contextes ou applications.

Limitations linguistiques et d'interaction

1. Incapacité à gérer les requêtes multilingues

Bien que les LLM aient une certaine capacité à générer du contenu dans plusieurs langues, ils peuvent avoir du mal à gérer efficacement les requêtes impliquant plusieurs langues dans une seule entrée ou nécessitant des traductions entre langues.

Performance par langue :

2. Difficulté à capturer l'intuition humaine

Les LLM peuvent avoir du mal à capturer l'intuition humaine, rendant difficile pour le modèle de générer du contenu reflétant la connaissance implicite ou la compréhension tacite sur laquelle les humains s'appuient souvent lors de la communication ou de la prise de décisions.

3. Manque de retour personnalisé

Les LLM, en tant que modèles de langage à usage général, peuvent ne pas fournir de retour personnalisé adapté aux besoins individuels des utilisateurs ou aux objectifs d'apprentissage. Cela peut limiter leur efficacité dans des contextes éducatifs ou de coaching où des conseils individualisés sont essentiels.

Stratégies d'atténuation

Bien que ces limitations soient réelles, il existe des stratégies pour les atténuer :

Au niveau de l'architecture

Utiliser des modèles appropriés à la tâche : Ne pas toujours choisir le plus grand modèle

Combiner plusieurs modèles : Ensemble learning avec plusieurs LLM

Monitoring continu : Surveiller les performances et détecter le drift

Au niveau de l'utilisation

Prompt engineering avancé : Chain-of-thought, few-shot learning

RAG : Ancrer les réponses dans des sources vérifiées

Human-in-the-loop : Supervision humaine pour les décisions critiques

Validation croisée : Comparer les sorties de plusieurs modèles

Au niveau organisationnel

Formation des utilisateurs : Comprendre les limites et les biais

Processus de validation : Ne jamais faire confiance aveuglément

Documentation : Tracer les décisions et les sources

Audits réguliers : Évaluer les performances et les biais

Ressources complémentaires

Études et recherches :

Coûts et impact :

Interprétabilité :

Drift et monitoring :

Outils pratiques :

Conclusion

Les grands modèles de langage sont des outils remarquablement puissants, mais ils restent des outils avec des limitations importantes. Comprendre ces limitations est essentiel pour :

Points clés à retenir :

L'avenir des LLM passe par une meilleure compréhension et atténuation de ces limitations, avec des approches hybrides combinant IA et expertise humaine.