====== Limitations des grands modèles de langage (LLM) ======

===== Introduction =====

Bien que les grands modèles de langage (LLM) soient remarquablement puissants, ils ne sont certainement pas tout-puissants. Comprendre leurs limitations est essentiel pour les utiliser de manière appropriée et éviter les déceptions ou les risques.

Ce guide explore les principales limitations des LLM à travers quatre axes :
  * Architecture des modèles
  * Gestion des données
  * Interprétabilité
  * Fiabilité

===== Architecture des modèles : plus grand = meilleur ? =====

==== Du grand à l'extra-grand ====

L'une des principales limitations d'un LLM réside dans... lui-même. Plus précisément dans son architecture. Pour qu'un modèle soit performant, il doit généralement devenir de plus en plus grand.

=== Évolution de la taille des modèles ===

Une étude de l'Université de l'Illinois montre la progression des performances de GPT-3.5 à GPT-4 à l'examen du barreau américain :

  * GPT-2 : ~10% de réussite
  * GPT-3.5 : ~45% de réussite
  * GPT-4 : ~75% de réussite
  * Étudiants moyens : ~68% de réussite

**Taille des modèles** :
  * ChatGPT-3 : 175 milliards de paramètres
  * ChatGPT-4 : 1,76 trillion de paramètres (10x plus grand)

=== Croissance exponentielle de tous les modèles ===

Cette tendance ne concerne pas seulement OpenAI. Tous les modèles d'IA suivent la même trajectoire :

^ Année ^ Modèle ^ Taille (paramètres) ^
| 2018 | ELMo | 94M |
| 2019 | BERT-Large | 340M |
| 2019 | GPT-2 | 1.5B |
| 2020 | T5 | 11B |
| 2020 | GPT-3 | 175B |
| 2021 | Turing-NLG | 17.2B |
| 2022 | Megatron-Turing NLG | 530B |

==== Le problème de la puissance de calcul ====

Plus le modèle est grand, plus la puissance de calcul nécessaire à son entraînement est importante. La taille croissante exige des clusters d'ordinateurs massifs que seules les grandes entreprises peuvent acquérir.

**Coûts estimés d'entraînement** :
  * GPT-3 : ~4,6 millions de dollars
  * GPT-4 : estimé à plus de 100 millions de dollars
  * Modèles futurs : potentiellement des centaines de millions

Et ce n'est pas seulement une question de coût, mais aussi de temps. L'entraînement de GPT-4 aurait pris plusieurs mois sur des milliers de GPU.

==== Plus grand ≠ forcément meilleur ====

À mesure que les modèles grossissent, de nouveaux problèmes apparaissent :

=== 1. Qualité des données ===

Plus les besoins en volume augmentent, plus il devient difficile de trouver des données de haute qualité. Le web contient une quantité limitée de contenu de qualité, et les modèles ont déjà été entraînés sur une grande partie.

**Problèmes émergents** :
  * Épuisement des données de qualité disponibles
  * Risque accru de contamination par du contenu généré par IA
  * Difficulté à filtrer le bruit et les informations erronées

=== 2. Overfitting (surapprentissage) ===

Un modèle plus grand est plus susceptible d'apprendre par cœur plutôt que de comprendre les patterns. C'est ce qu'on appelle l'**overfitting** : le modèle mémorise les données d'entraînement au lieu de généraliser.

**Conséquences** :
  * Performance excellente sur les données d'entraînement
  * Performance décevante sur de nouvelles données
  * Manque de robustesse face à des variations

**Conclusion** : Avoir un modèle plus grand ne signifie pas forcément de meilleures performances. On ne peut augmenter la taille d'un modèle que si les données augmentent également en qualité et en quantité.

==== Alternative : généralisation vs spécialisation ====

Pour atténuer le risque d'overfitting et éviter de construire des modèles toujours plus grands, les chercheurs ont exploré une autre voie :

**Construire de nombreux "mini-modèles" spécialisés sur une tâche spécifique**

^ Approche ^ Avantages ^ Inconvénients ^
| **Modèles généralisés** (GPT-4, Claude) | Polyvalents, un seul modèle pour tout | Très coûteux, risque d'overfitting |
| **Modèles spécialisés** (BERT pour classification, etc.) | Plus faciles à entraîner, plus efficaces sur leur tâche | Ne peuvent faire que ce pour quoi ils ont été conçus |

**Usage recommandé** : Utiliser un modèle généralisé pour la plupart des tâches, et des modèles spécialisés pour les cas où la précision est critique.

===== Interprétabilité et transparence =====

==== Le problème de la boîte noire ====

Regardons la fondation de tous les LLM : **la couche d'attention** (attention layer).

{{:llm:attention-mechanism.png?600|Mécanisme d'attention des transformers}}

L'architecture est si complexe qu'il devient extrêmement difficile de comprendre comment un modèle est arrivé au résultat qu'il a fourni.

**Pourquoi c'est un problème** :

  * **Secteur bancaire** : Impossible d'expliquer pourquoi un prêt a été refusé
  * **RGPD** : L'article 22 exige le droit à l'explication des décisions automatisées
  * **Médical** : Nécessité de comprendre le raisonnement pour des diagnostics
  * **Juridique** : Besoin de traçabilité et de justification des décisions

==== Solutions d'interprétabilité ====

Certains papiers de recherche suggèrent des solutions pour interpréter les LLM. Parmi les solutions, utiliser les LLM eux-mêmes pour expliquer leur raisonnement.

=== Techniques de prompt engineering ===

**Chain-of-Thought (Chaîne de pensée)** : Demander au modèle d'expliquer son raisonnement étape par étape.

<code>
Prompt standard :
"Combien fait 25 * 4 ?"

Chain-of-Thought :
"Résous ce problème étape par étape : Combien fait 25 * 4 ?
1. D'abord, explique ta méthode
2. Ensuite, calcule
3. Enfin, vérifie ton résultat"
</code>

=== Outils d'interprétabilité ===

**LIME (Local Interpretable Model-agnostic Explanations)** : Outil populaire qui aide à expliquer les prédictions de n'importe quel classificateur de machine learning de manière interprétable et fidèle, en l'approximant localement avec un modèle interprétable.

**SHAP (SHapley Additive exPlanations)** : Exploite la théorie des jeux pour expliquer la sortie de n'importe quel modèle de machine learning. Connecte l'allocation optimale de crédit avec des explications locales en utilisant les valeurs de Shapley classiques de la théorie des jeux.

**Integrated Gradients** : Technique pour attribuer la prédiction d'un réseau de neurones à ses caractéristiques d'entrée. Particulièrement utile pour les modèles d'apprentissage profond où comprendre la contribution de chaque caractéristique est complexe.

**Attention Maps (Cartes d'attention)** : Pour les modèles utilisant des mécanismes d'attention (comme les LLM), visualiser les cartes d'attention peut fournir des insights sur quelles parties des données d'entrée le modèle se concentre lors de ses prédictions.

**Captum** : Bibliothèque open-source créée par Facebook (Meta), qui offre une large gamme d'outils et techniques d'interprétabilité spécifiquement conçus pour les modèles PyTorch. Supporte l'introspection et la compréhension des modèles pour de nombreux types, y compris les LLM.

**What-If Tool** : Développé par Google, cet outil permet aux utilisateurs d'analyser interactivement les modèles de machine learning pour mieux comprendre les comportements du modèle sous différentes conditions. Particulièrement utile pour explorer les réponses du modèle à différentes variations d'entrée et comprendre les biais potentiels.

===== Drift (dérive des performances) =====

Vous pensiez avoir terminé une fois le LLM entraîné ? Détrompez-vous ! Au fil du temps, les performances d'un modèle peuvent se dégrader. C'est ce qu'on appelle le **drift** (dérive).

==== Types de drift ====

Le drift peut se produire de trois manières différentes :

**1. Gradual Drift (dérive graduelle)** : La plus courante
  * Les choses changent avec le temps
  * Les données sont affectées par ces changements
  * Exemple : Évolution du langage, nouveaux produits, changement de tendances

**2. Sudden Drift (dérive soudaine)** : Changement brutal
  * Se produit lorsque quelque chose de majeur change
  * Exemple : Crise COVID-19, changement réglementaire majeur, événement géopolitique

**3. Recurring Drift (dérive récurrente)** : Effet de la saisonnalité
  * Patterns qui reviennent périodiquement
  * Exemple : Variations saisonnières (Noël, été, rentrée scolaire)

{{:llm:data-drift-types.png?600|Types de drift}}

==== Data Drift (dérive des données) ====

Le **data drift**, ou changement de covariables (covariate shift), est le fait que les données en production deviennent de moins en moins représentatives de celles de votre ensemble d'entraînement. En d'autres termes, la distribution des données d'entrée a changé.

**Causes courantes** :
  * **Événements mondiaux** : COVID-19, crises économiques, changements politiques
  * **Contexte d'application différent** : Utilisation du modèle dans un environnement différent de celui prévu
  * **Biais du training set** : L'ensemble d'entraînement n'était pas représentatif dès le départ
  * **Évolution des comportements utilisateurs** : Les gens changent leur façon d'interagir avec le système

**Détection** :

Le data drift arrive souvent. Ce n'est pas une question de "si" mais de "quand". La seule chose à faire est de définir un seuil au-delà duquel on considère que les données ont trop dévié.

**Métriques courantes** :
  * Distribution des features (KL divergence, Jensen-Shannon divergence)
  * Tests statistiques (Kolmogorov-Smirnov, Chi-carré)
  * Monitoring des distributions d'entrée

==== Target Drift (dérive de la cible) ====

Le **target drift** (ou concept drift) se produit lorsque les données d'entrée et la variable de sortie perdent leur relation. Le modèle n'est plus représentatif de ce qui se passe dans la réalité.

**Exemple concret** :
  * Un modèle prédit la probabilité qu'un email soit du spam
  * Les techniques de spam évoluent (nouveaux mots-clés, nouvelles stratégies)
  * Les anciens patterns ne sont plus valides
  * Le modèle devient inefficace

**Solution** : Réentraînement périodique avec de nouvelles données.

===== Limitations techniques et opérationnelles =====

==== 1. Informations inexactes ou trompeuses (Hallucinations) ====

Les LLM peuvent générer du contenu contenant des inexactitudes ou des informations trompeuses, car ils se basent sur les patterns et associations appris de leurs données d'entraînement plutôt que sur une compréhension profonde du sujet.

**Exemples d'hallucinations** :
  * Inventer des références bibliographiques qui n'existent pas
  * Citer des statistiques erronées avec confiance
  * Créer des faits plausibles mais totalement faux
  * Mélanger des informations de sources différentes de manière incohérente

**Atténuation** :
  * Utiliser le RAG pour ancrer les réponses dans des sources vérifiées
  * Demander des citations et vérifier les sources
  * Utiliser plusieurs modèles et comparer les réponses
  * Ne jamais faire confiance aveuglément aux informations critiques

==== 2. Absence de mises à jour en temps réel ====

La connaissance d'un LLM est limitée aux données sur lesquelles il a été entraîné, avec une date de coupure (knowledge cutoff). Il ne peut donc pas fournir d'informations en temps réel ou vérifier l'exactitude de ses réponses face à de nouveaux développements.

**Dates de coupure courantes** :
  * GPT-4 : Avril 2023
  * Claude 3 : Août 2023
  * Gemini : Avril 2023 (variable selon les versions)

**Solutions** :
  * Intégration avec des outils de recherche web
  * RAG avec bases de données à jour
  * Systèmes hybrides LLM + API externes

==== 3. Verbosité et répétition de certaines phrases ====

Les LLM peuvent parfois produire des réponses verbeuses ou réutiliser certaines phrases, rendant le contenu généré répétitif ou moins naturel.

**Phrases typiques surutilisées** :
  * "Il est important de noter que..."
  * "En tant que modèle de langage IA..."
  * "Cela dépend de divers facteurs..."
  * "D'une part... d'autre part..."

**Atténuation** :
  * Prompt engineering spécifique pour demander la concision
  * Post-traitement pour détecter et éliminer les répétitions
  * Fine-tuning sur un style d'écriture spécifique

==== 4. Incapacité à interagir avec des systèmes externes ====

Les LLM, étant des modèles basés sur le texte, ne possèdent pas la capacité d'interagir directement avec des systèmes externes comme des bases de données, des APIs ou d'autres logiciels.

<WRAP center round important 80%>
**NOTE** : Cette limitation est en train d'être résolue avec l'IA agentique et les "function calling" (appel de fonctions), qui permettent aux LLM d'utiliser des outils externes.
</WRAP>

==== 5. Exigences en ressources pour l'entraînement et le déploiement ====

L'entraînement et le déploiement de modèles d'IA comme les LLM peuvent nécessiter des ressources informatiques importantes, ce qui peut constituer une barrière à l'entrée pour les petites organisations ou les particuliers.

**Coûts typiques** :
  * **Entraînement d'un grand modèle** : Millions à centaines de millions de dollars
  * **Inférence (utilisation)** : $0.002 à $0.10 par 1000 tokens selon le modèle
  * **Infrastructure** : Serveurs GPU spécialisés, clusters de calcul

**Impact environnemental** :
  * **Entraînement de GPT-3** : ~552 tonnes de CO2
  * **Utilisation quotidienne** : Plusieurs MWh d'électricité pour les grands déploiements

===== Limitations de compréhension contextuelle =====

==== 1. Sensibilité à la formulation de l'entrée ====

La sortie du modèle peut être sensible à de légers changements dans la formulation de l'entrée, conduisant à des réponses incohérentes ou à des niveaux de détail variables dans le contenu généré.

**Exemple** :
<code>
Prompt 1 : "Explique-moi la photosynthèse"
→ Réponse de niveau collège

Prompt 2 : "Peux-tu m'expliquer la photosynthèse ?"
→ Réponse potentiellement différente en ton et détail

Prompt 3 : "Photosynthèse - explique"
→ Réponse plus brève et technique
</code>

==== 2. Difficulté avec les requêtes ambiguës ====

Les LLM peuvent avoir du mal avec des requêtes ambiguës ou des questions nécessitant une compréhension nuancée du contexte. Dans ces cas, le modèle peut générer du contenu qui semble plausible mais ne répond pas directement à l'intention de l'utilisateur.

**Exemple** :
<code>
Question : "Il fait chaud ici"
Réponse possible (mauvaise interprétation) : "Je vais vous donner la température actuelle..."
Intention réelle : L'utilisateur veut peut-être qu'on ouvre une fenêtre ou baisse le chauffage
</code>

==== 3. Manque de conscience contextuelle ====

Les LLM peuvent parfois générer du contenu qui manque de conscience contextuelle ou ne parvient pas à prendre en compte les implications plus larges d'un sujet donné. Cela peut aboutir à un contenu qui semble superficiel ou ne tient pas compte de la complexité des situations du monde réel.

==== 4. Contextes conversationnels longs ====

Les LLM peuvent avoir des difficultés à maintenir la cohérence dans des contextes conversationnels longs ou lors de réponses à une série de questions interconnectées. Cela peut entraîner des réponses décousues ou contradictoires.

**Limites de fenêtre contextuelle** :
  * GPT-3.5 : 4K tokens (~3000 mots)
  * GPT-4 : 8K-32K tokens
  * Claude 3 : 200K tokens
  * Gemini 1.5 : 1M tokens

Plus la conversation est longue, plus le risque d'incohérence augmente.

==== 5. Difficulté avec le langage non littéral ====

Les LLM peuvent avoir du mal à interpréter ou générer du langage non littéral, comme les idiomes, métaphores ou le sarcasme. Cela peut aboutir à des réponses trop littérales, manquant le sens voulu, ou ne transmettant pas le ton désiré.

**Exemples problématiques** :
  * Idiomes : "Il pleut des cordes" interprété littéralement
  * Sarcasme : Difficulté à détecter le ton ironique
  * Métaphores : Incompréhension des comparaisons abstraites

===== Considérations éthiques et sociales =====

==== 1. Raisonnement éthique et moral ====

Les LLM peuvent avoir du mal à engager un raisonnement éthique ou moral. Ils peuvent générer du contenu moralement ambigu ou ne respectant pas les normes éthiques, les rendant inadaptés à certaines applications sans supervision humaine appropriée.

**Problèmes potentiels** :
  * Réponses moralement neutres sur des questions éthiques importantes
  * Incapacité à comprendre les nuances culturelles
  * Risque de normaliser des comportements problématiques

==== 2. Réponse aux requêtes inappropriées ou nuisibles ====

Les LLM peuvent avoir du mal à reconnaître et gérer de manière cohérente les entrées inappropriées, nuisibles ou offensantes, générant potentiellement du contenu qui viole les directives éthiques ou les attentes des utilisateurs.

**Mesures de protection** :
  * Filtres de contenu en amont et en aval
  * Modération humaine pour les cas sensibles
  * Fine-tuning avec RLHF (Reinforcement Learning from Human Feedback)

==== 3. Manque de conscience de soi ====

Les LLM manquent de conscience de soi, ce qui signifie qu'ils ne possèdent pas une compréhension de leurs propres limitations, biais ou lacunes de connaissances. Cela peut rendre difficile pour le modèle de générer du contenu qui reconnaît l'incertitude ou indique quand il pourrait fournir des informations incomplètes ou incorrectes.

**Conséquence** : Les LLM répondent souvent avec confiance même quand ils sont incertains.

==== 4. Consommation d'énergie et impact environnemental ====

L'entraînement et l'exécution de modèles d'IA à grande échelle peuvent consommer des quantités importantes d'énergie, contribuant aux préoccupations environnementales et soulevant des questions sur la durabilité et les implications éthiques de leur utilisation généralisée.

**Chiffres clés** :
  * **Entraînement de GPT-3** : ~1 287 MWh (équivalent à 126 foyers danois pendant un an)
  * **Empreinte carbone** : Équivalent à ~552 tonnes de CO2
  * **Utilisation quotidienne** : Des millions de requêtes consommant de l'énergie en continu

**Initiatives de réduction** :
  * Modèles plus efficaces (distillation)
  * Datacenters alimentés en énergies renouvelables
  * Optimisation des infrastructures

===== Limitations cognitives et créatives =====

==== 1. Intelligence émotionnelle limitée ====

En tant que modèle de langage IA, les LLM ont une intelligence émotionnelle limitée, ce qui peut aboutir à du contenu généré manquant d'empathie ou ne reconnaissant et ne répondant pas de manière appropriée au contexte émotionnel d'une requête utilisateur.

**Exemples** :
  * Réponses insensibles à des situations de détresse
  * Incapacité à détecter la frustration ou l'urgence
  * Ton inapproprié pour des sujets sensibles

==== 2. Difficulté à reconnaître et s'adapter à l'expertise de l'utilisateur ====

Les LLM peuvent ne pas adapter efficacement leur contenu généré au niveau d'expertise ou de familiarité de l'utilisateur avec un sujet spécifique, aboutissant potentiellement à des réponses trop simplistes ou trop techniques qui peuvent ne pas convenir aux besoins de l'utilisateur.

**Problème** : Sans indication explicite, le LLM ne sait pas s'il s'adresse à un débutant ou à un expert.

**Solution** : Spécifier le niveau dans le prompt ("Explique-moi comme si j'avais 10 ans" / "Explique en termes techniques").

==== 3. Expertise limitée dans des domaines spécifiques ====

Bien que les LLM puissent générer du contenu sur une large gamme de sujets, ils peuvent manquer de la profondeur de connaissance ou d'expertise trouvée dans des modèles d'IA spécifiques à un domaine. Cela peut limiter leur utilité dans des domaines spécialisés où la précision et l'exactitude sont primordiales.

**Recommandation** : Pour des domaines critiques (médical, juridique, ingénierie), toujours vérifier les informations avec des experts humains.

==== 4. Créativité limitée ====

Bien que les LLM puissent générer du contenu qui semble créatif, leur créativité est finalement limitée par les patterns et associations qu'ils ont appris de leurs données d'entraînement. Cela peut aboutir à du contenu dérivé ou manquant de la nouveauté et de l'originalité trouvées dans les œuvres créatives générées par des humains.

**Limites de la créativité** :
  * Reproduction de patterns existants
  * Difficulté avec la véritable innovation
  * Manque d'intuition artistique ou émotionnelle

==== 5. Surgénéralisation ====

Les LLM peuvent parfois surgénéraliser lors de la génération de contenu, conduisant à des réponses manquant de nuance ou simplifiant à l'excès des sujets complexes. Cela peut aboutir à du contenu qui semble plausible en surface mais ne parvient pas à aborder avec précision les subtilités d'un sujet donné.

==== 6. Incohérence de la qualité ====

La qualité de sortie des LLM peut varier selon l'entrée et le sujet discuté, conduisant à des incohérences dans le niveau de détail, la cohérence ou la pertinence du contenu généré. Cela peut rendre difficile de prédire les performances du modèle dans différents contextes ou applications.

===== Limitations linguistiques et d'interaction =====

==== 1. Incapacité à gérer les requêtes multilingues ====

Bien que les LLM aient une certaine capacité à générer du contenu dans plusieurs langues, ils peuvent avoir du mal à gérer efficacement les requêtes impliquant plusieurs langues dans une seule entrée ou nécessitant des traductions entre langues.

**Performance par langue** :
  * **Excellente** : Anglais (la majorité des données d'entraînement)
  * **Bonne** : Langues européennes majeures (français, espagnol, allemand)
  * **Variable** : Langues asiatiques, arabe
  * **Limitée** : Langues à faibles ressources

==== 2. Difficulté à capturer l'intuition humaine ====

Les LLM peuvent avoir du mal à capturer l'intuition humaine, rendant difficile pour le modèle de générer du contenu reflétant la connaissance implicite ou la compréhension tacite sur laquelle les humains s'appuient souvent lors de la communication ou de la prise de décisions.

==== 3. Manque de retour personnalisé ====

Les LLM, en tant que modèles de langage à usage général, peuvent ne pas fournir de retour personnalisé adapté aux besoins individuels des utilisateurs ou aux objectifs d'apprentissage. Cela peut limiter leur efficacité dans des contextes éducatifs ou de coaching où des conseils individualisés sont essentiels.

===== Stratégies d'atténuation =====

Bien que ces limitations soient réelles, il existe des stratégies pour les atténuer :

==== Au niveau de l'architecture ====

✅ **Utiliser des modèles appropriés à la tâche** : Ne pas toujours choisir le plus grand modèle

✅ **Combiner plusieurs modèles** : Ensemble learning avec plusieurs LLM

✅ **Monitoring continu** : Surveiller les performances et détecter le drift

==== Au niveau de l'utilisation ====

✅ **Prompt engineering avancé** : Chain-of-thought, few-shot learning

✅ **RAG** : Ancrer les réponses dans des sources vérifiées

✅ **Human-in-the-loop** : Supervision humaine pour les décisions critiques

✅ **Validation croisée** : Comparer les sorties de plusieurs modèles

==== Au niveau organisationnel ====

✅ **Formation des utilisateurs** : Comprendre les limites et les biais

✅ **Processus de validation** : Ne jamais faire confiance aveuglément

✅ **Documentation** : Tracer les décisions et les sources

✅ **Audits réguliers** : Évaluer les performances et les biais

===== Ressources complémentaires =====

**Études et recherches** :
  * [[https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4389233|GPT-4 Passes the Bar Exam (Université de l'Illinois)]]
  * [[https://the-decoder.com/gpt-4-architecture-datasets-costs-and-more-leaked/|GPT-4 Architecture, Datasets, Costs and More]]
  * [[https://huggingface.co/blog/large-language-models|Large Language Models: A New Moore's Law?]]

**Coûts et impact** :
  * [[https://www.mosaicml.com/blog/llm-training-cost|How Much Does it Cost to Train an LLM]]
  * Impact environnemental des LLM

**Interprétabilité** :
  * [[https://arxiv.org/abs/2302.00093|Rethinking Interpretability in the Era of Large Language Models]]
  * [[https://christophm.github.io/interpretable-ml-book/|Interpretable Machine Learning Book]]

**Drift et monitoring** :
  * [[https://huyenchip.com/2022/02/07/data-distribution-shifts-and-monitoring.html|Notes on Data Distribution Shifts and Monitoring]]
  * [[https://www.evidentlyai.com/blog/ml-monitoring-drift|ML Monitoring: Data Drift]]

**Outils pratiques** :
  * [[https://github.com/pytorch/captum|Captum]] - Interprétabilité pour PyTorch
  * [[https://github.com/slundberg/shap|SHAP]] - Explications de modèles
  * [[https://github.com/marcotcr/lime|LIME]] - Explications locales

===== Conclusion =====

Les grands modèles de langage sont des outils remarquablement puissants, mais ils restent des outils avec des limitations importantes. Comprendre ces limitations est essentiel pour :

  * **Utiliser les LLM de manière appropriée** : Choisir les bons cas d'usage
  * **Éviter les risques** : Mettre en place des garde-fous adéquats
  * **Optimiser les performances** : Combiner les LLM avec d'autres techniques (RAG, fine-tuning)
  * **Maintenir la confiance** : Transparence sur les capacités et limites

**Points clés à retenir** :

  * Plus grand ne signifie pas forcément meilleur
  * L'interprétabilité reste un défi majeur
  * Le drift est inévitable et doit être surveillé
  * Les limitations contextuelles nécessitent une supervision humaine
  * Les considérations éthiques et environnementales sont essentielles

L'avenir des LLM passe par une meilleure compréhension et atténuation de ces limitations, avec des approches hybrides combinant IA et expertise humaine.