Différences

Ci-dessous, les différences entre deux révisions de la page.

--- ai:limitations [2025/10/20 22:16] – créée admin
+++ ai:limitations [2025/10/20 22:16] (Version actuelle) – admin
@@ Ligne 1: / Ligne 1: @@
-====== Fine-tuning de modèles de langage (LLM) ======
+====== Limitations des grands modèles de langage (LLM) ======
 ===== Introduction =====
-Le **fine-tuning** (ajustement fin) représente l'étape suivante dans la personnalisation des modèles de langage, après le prompt engineering et le RAG. Cette technique permet d'adapter un modèle pré-entraîné à des tâches spécifiques ou à un domaine particulier en poursuivant son entraînement sur un ensemble de données ciblées.
+Bien que les grands modèles de langage (LLM) soient remarquablement puissants, ils ne sont certainement pas tout-puissants. Comprendre leurs limitations est essentiel pour les utiliser de manière appropriée et éviter les déceptions ou les risques.
-Ce guide explore les niveaux de personnalisation des LLM, le processus de fine-tuning, et comment le mettre en œuvre concrètement.
+Ce guide explore les principales limitations des LLM à travers quatre axes :
+  * Architecture des modèles
+  * Gestion des données
+  * Interprétabilité
+  * Fiabilité
-===== Les niveaux de personnalisation des LLM =====
+===== Architecture des modèles : plus grand = meilleur ? =====
-À mesure que votre organisation intègre l'IA, il arrivera un moment où l'application ChatGPT de base ne suffira plus. Il existe plusieurs niveaux de personnalisation des modèles fondamentaux. Voici les meilleures pratiques à suivre :
+==== Du grand à l'extra-grand ====
-{{:llm:customization-levels.png?600|Niveaux de personnalisation des LLM}}
+L'une des principales limitations d'un LLM réside dans... lui-même. Plus précisément dans son architecture. Pour qu'un modèle soit performant, il doit généralement devenir de plus en plus grand.
-==== Niveau 1 : Prompt Engineering ====
+=== Évolution de la taille des modèles ===
-**Complexité** : Faible
+Une étude de l'Université de l'Illinois montre la progression des performances de GPT-3.5 à GPT-4 à l'examen du barreau américain :
-**Performance potentielle** : Modérée
-Optimisez les performances de votre modèle en créant les meilleurs prompts possibles. C'est la première étape et la plus accessible.
+  * GPT-2 : ~10% de réussite
+  * GPT-3.5 : ~45% de réussite
+  * GPT-4 : ~75% de réussite
+  * Étudiants moyens : ~68% de réussite
-**Avantages** :
+**Taille des modèles** :
-  * Aucun coût supplémentaire
+  * ChatGPT-3 : 175 milliards de paramètres
-  * Mise en œuvre immédiate
+  * ChatGPT-4 : 1,76 trillion de paramètres (10x plus grand)
-  * Pas de compétences techniques avancées requises
-**Limitations** :
+=== Croissance exponentielle de tous les modèles ===
-  * Performances limitées par les capacités du modèle de base
-  * Nécessite de réitérer les instructions à chaque requête
-**Quand l'utiliser** : Pour tous les cas d'usage en premier lieu, avant d'envisager d'autres approches.
+Cette tendance ne concerne pas seulement OpenAI. Tous les modèles d'IA suivent la même trajectoire :
-==== Niveau 2 : RAG (Retrieval-Augmented Generation) ====
+^ Année ^ Modèle ^ Taille (paramètres) ^
+| 2018 | ELMo | 94M |
+| 2019 | BERT-Large | 340M |
+| 2019 | GPT-2 | 1.5B |
+| 2020 | T5 | 11B |
+| 2020 | GPT-3 | 175B |
+| 2021 | Turing-NLG | 17.2B |
+| 2022 | Megatron-Turing NLG | 530B |
-**Complexité** : Modérée
+==== Le problème de la puissance de calcul ====
-**Performance potentielle** : Élevée
-Connectez des sources de données externes au modèle. L'agent récupère les informations pertinentes avant de générer une réponse, réduisant les erreurs et améliorant la pertinence.
+Plus le modèle est grand, plus la puissance de calcul nécessaire à son entraînement est importante. La taille croissante exige des clusters d'ordinateurs massifs que seules les grandes entreprises peuvent acquérir.
-**Avantages** :
+**Coûts estimés d'entraînement** :
-  * Accès à des données à jour
+  * GPT-3 : ~4,6 millions de dollars
-  * Réduction des hallucinations
+  * GPT-4 : estimé à plus de 100 millions de dollars
-  * Pas besoin de réentraîner le modèle
+  * Modèles futurs : potentiellement des centaines de millions
-**Limitations** :
+Et ce n'est pas seulement une question de coût, mais aussi de temps. L'entraînement de GPT-4 aurait pris plusieurs mois sur des milliers de GPU.
-  * Nécessite une infrastructure (base de données vectorielle)
-  * Coûts de stockage et d'interrogation
-  * Dépend de la qualité des sources
-**Quand l'utiliser** : Lorsque vous devez exploiter des données propriétaires ou spécifiques à votre domaine.
+==== Plus grand ≠ forcément meilleur ====
-==== Niveau 3 : Fine-tuning ====
+À mesure que les modèles grossissent, de nouveaux problèmes apparaissent :
-**Complexité** : Élevée
+=== 1. Qualité des données ===
-**Performance potentielle** : Très élevée
-Ajustez les poids du modèle en continuant son entraînement sur un dataset spécifique. Le modèle "apprend" réellement vos cas d'usage.
+Plus les besoins en volume augmentent, plus il devient difficile de trouver des données de haute qualité. Le web contient une quantité limitée de contenu de qualité, et les modèles ont déjà été entraînés sur une grande partie.
-**Avantages** :
+**Problèmes émergents** :
-  * Amélioration drastique sur des tâches spécifiques
+  * Épuisement des données de qualité disponibles
-  * Réduction de la taille des prompts
+  * Risque accru de contamination par du contenu généré par IA
-  * Style et ton cohérents
+  * Difficulté à filtrer le bruit et les informations erronées
-**Limitations** :
+=== 2. Overfitting (surapprentissage) ===
-  * Nécessite un dataset de qualité (minimum 50-100 exemples)
-  * Coûts d'entraînement
-  * Compétences techniques requises
-  * Risque de surapprentissage
-**Quand l'utiliser** : Lorsque le prompt engineering a atteint ses limites et que vous avez des besoins très spécifiques.
+Un modèle plus grand est plus susceptible d'apprendre par cœur plutôt que de comprendre les patterns. C'est ce qu'on appelle l'**overfitting** : le modèle mémorise les données d'entraînement au lieu de généraliser.
-==== Niveau 4 : Continued Training (Entraînement continu) ====
+**Conséquences** :
+  * Performance excellente sur les données d'entraînement
+  * Performance décevante sur de nouvelles données
+  * Manque de robustesse face à des variations
-**Complexité** : Très élevée
+**Conclusion** : Avoir un modèle plus grand ne signifie pas forcément de meilleures performances. On ne peut augmenter la taille d'un modèle que si les données augmentent également en qualité et en quantité.
-**Performance potentielle** : Maximale
-Il s'agit d'entraîner le modèle sur un dataset personnalisé qui fait partie intégrante du modèle. Cela va au-delà du fine-tuning pour créer une véritable spécialisation.
+==== Alternative : généralisation vs spécialisation ====
-**Avantages** :
+Pour atténuer le risque d'overfitting et éviter de construire des modèles toujours plus grands, les chercheurs ont exploré une autre voie :
-  * Performance maximale sur un domaine spécifique
-  * Modèle complètement adapté
-**Limitations** :
+**Construire de nombreux "mini-modèles" spécialisés sur une tâche spécifique**
-  * Coûts très élevés
-  * Nécessite une expertise en ML avancée
-  * Temps de développement important
-**Quand l'utiliser** : Pour des besoins très spécifiques où le retour sur investissement justifie l'investissement massif.
+^ Approche ^ Avantages ^ Inconvénients ^
+| **Modèles généralisés** (GPT-4, Claude) | Polyvalents, un seul modèle pour tout | Très coûteux, risque d'overfitting |
+| **Modèles spécialisés** (BERT pour classification, etc.) | Plus faciles à entraîner, plus efficaces sur leur tâche | Ne peuvent faire que ce pour quoi ils ont été conçus |
-===== Qu'est-ce que le fine-tuning ? =====
+**Usage recommandé** : Utiliser un modèle généralisé pour la plupart des tâches, et des modèles spécialisés pour les cas où la précision est critique.
-Le fine-tuning est le processus d'adaptation d'un modèle pré-entraîné à une tâche ou un domaine spécifique en poursuivant son entraînement sur un ensemble de données ciblées.
+===== Interprétabilité et transparence =====
-Imaginez qu'un LLM est comme un étudiant qui a reçu une éducation générale. Le fine-tuning, c'est lui donner une formation spécialisée pour devenir expert dans un domaine particulier.
+==== Le problème de la boîte noire ====
-===== Quand le fine-tuning est-il nécessaire ? =====
+Regardons la fondation de tous les LLM : **la couche d'attention** (attention layer).
-Vous avez atteint les limites du prompt engineering et devez encore améliorer les performances. Le fine-tuning peut être une bonne solution si :
+{{:llm:attention-mechanism.png?600|Mécanisme d'attention des transformers}}
-  * Vous souhaitez définir un **style, ton, format ou autres aspects qualitatifs spécifiques**
+L'architecture est si complexe qu'il devient extrêmement difficile de comprendre comment un modèle est arrivé au résultat qu'il a fourni.
-  * Vous avez des **types de réponses spécifiques** qui doivent être données à l'utilisateur final
-  * Les **tâches sont trop complexes** pour être exprimées dans un prompt
-===== Cas d'usage concrets en entreprise =====
+**Pourquoi c'est un problème** :
-==== 1. Automatisation du support client ====
+  * **Secteur bancaire** : Impossible d'expliquer pourquoi un prêt a été refusé
+  * **RGPD** : L'article 22 exige le droit à l'explication des décisions automatisées
+  * **Médical** : Nécessité de comprendre le raisonnement pour des diagnostics
+  * **Juridique** : Besoin de traçabilité et de justification des décisions
-^ Scénario ^ Problème initial ^ Solution ^ Bénéfices ^
+==== Solutions d'interprétabilité ====
-| Une entreprise souhaite déployer un assistant virtuel pour gérer les demandes clients plus efficacement | Le LLM générique ne comprend pas pleinement les produits, services ou jargon spécifiques de l'entreprise | Fine-tuner le LLM sur les historiques d'interactions du service client, FAQs et documentation produits rend l'assistant plus apte à résoudre les problèmes, fournir des informations précises et comprendre le contexte des demandes | Amélioration de la satisfaction client, réduction des délais de résolution, charge de travail réduite pour les agents humains |
-**Exemple concret** : Un opérateur télécom fine-tune un modèle sur 10 000 conversations de support. Le modèle apprend :
+Certains papiers de recherche suggèrent des solutions pour interpréter les LLM. Parmi les solutions, utiliser les LLM eux-mêmes pour expliquer leur raisonnement.
-  * Le vocabulaire technique spécifique (ADSL, fibre, débit, box)
-  * Les procédures de dépannage standard
-  * Le ton empathique et professionnel de la marque
-**Résultat** : 60% des demandes simples sont résolues automatiquement, avec un taux de satisfaction de 85%.
+=== Techniques de prompt engineering ===
-==== 2. Personnalisation de contenu en e-commerce ====
+**Chain-of-Thought (Chaîne de pensée)** : Demander au modèle d'expliquer son raisonnement étape par étape.
-^ Scénario ^ Problème initial ^ Solution ^ Bénéfices ^
+<code>
-| Une plateforme e-commerce vise à améliorer l'engagement des utilisateurs en fournissant des descriptions de produits et recommandations personnalisées | Le LLM générique génère des descriptions et recommandations génériques qui ne résonnent pas avec les segments d'utilisateurs spécifiques | Fine-tuner le LLM sur les données de comportement utilisateur, historique d'achats et avis produits permet au modèle de générer du contenu plus pertinent et personnalisé | Augmentation des taux de conversion, amélioration de l'expérience utilisateur, fidélisation client en fournissant du contenu aligné avec les préférences individuelles |
+Prompt standard :
+"Combien fait 25 * 4 ?"
-**Exemple concret** : Un site de mode fine-tune un modèle sur 50 000 descriptions de produits et leurs performances de vente. Le modèle apprend :
+Chain-of-Thought :
-  * Le style rédactionnel qui convertit le mieux
+"Résous ce problème étape par étape : Combien fait 25 * 4 ?
-  * Les caractéristiques à mettre en avant par catégorie
+. D'abord, explique ta méthode
-  * Les associations de produits qui fonctionnent
+. Ensuite, calcule
+. Enfin, vérifie ton résultat"
+</code>
-**Résultat** : +25% de taux de conversion sur les fiches produits générées par le modèle fine-tuné.
+=== Outils d'interprétabilité ===
-==== 3. Analyse de documents financiers ====
+**LIME (Local Interpretable Model-agnostic Explanations)** : Outil populaire qui aide à expliquer les prédictions de n'importe quel classificateur de machine learning de manière interprétable et fidèle, en l'approximant localement avec un modèle interprétable.
-^ Scénario ^ Problème initial ^ Solution ^ Bénéfices ^
+**SHAP (SHapley Additive exPlanations)** : Exploite la théorie des jeux pour expliquer la sortie de n'importe quel modèle de machine learning. Connecte l'allocation optimale de crédit avec des explications locales en utilisant les valeurs de Shapley classiques de la théorie des jeux.
-| Une société de services financiers doit analyser et résumer de grands volumes de documents financiers (rapports de résultats, analyses de marché, dépôts réglementaires) | Le LLM générique peut avoir du mal avec la terminologie spécialisée et les détails complexes typiques des documents financiers | Fine-tuner le LLM sur un dataset de textes financiers (rapports passés, articles de presse financière, documents réglementaires) permet au modèle de mieux comprendre et traiter ces informations | Résumés plus précis et perspicaces, temps de traitement réduits, capacités de prise de décision améliorées pour les analystes et parties prenantes |
-**Exemple concret** : Une banque d'investissement fine-tune un modèle sur 5 000 rapports financiers annotés. Le modèle apprend :
+**Integrated Gradients** : Technique pour attribuer la prédiction d'un réseau de neurones à ses caractéristiques d'entrée. Particulièrement utile pour les modèles d'apprentissage profond où comprendre la contribution de chaque caractéristique est complexe.
-  * La structure standard des rapports financiers
-  * Les indicateurs clés à extraire
-  * Les signaux d'alerte dans les formulations
-**Résultat** : Analyse de rapports 10x plus rapide, avec extraction automatique des KPIs et détection d'anomalies.
+**Attention Maps (Cartes d'attention)** : Pour les modèles utilisant des mécanismes d'attention (comme les LLM), visualiser les cartes d'attention peut fournir des insights sur quelles parties des données d'entrée le modèle se concentre lors de ses prédictions.
-===== Comment créer un job de fine-tuning ? =====
+**Captum** : Bibliothèque open-source créée par Facebook (Meta), qui offre une large gamme d'outils et techniques d'interprétabilité spécifiquement conçus pour les modèles PyTorch. Supporte l'introspection et la compréhension des modèles pour de nombreux types, y compris les LLM.
-Pour créer un job de fine-tuning, vous devrez :
+**What-If Tool** : Développé par Google, cet outil permet aux utilisateurs d'analyser interactivement les modèles de machine learning pour mieux comprendre les comportements du modèle sous différentes conditions. Particulièrement utile pour explorer les réponses du modèle à différentes variations d'entrée et comprendre les biais potentiels.
-  - **Construire un dataset**
+===== Drift (dérive des performances) =====
-  - **Diviser ce dataset** en ensemble d'entraînement (training set) et ensemble de test (test set)
-  - **Entraîner le modèle** de votre choix
-==== Étape 1 : Construire un dataset ====
+Vous pensiez avoir terminé une fois le LLM entraîné ? Détrompez-vous ! Au fil du temps, les performances d'un modèle peuvent se dégrader. C'est ce qu'on appelle le **drift** (dérive).
-C'est la partie **la plus difficile et la plus longue**. Vous devrez construire manuellement un dataset qui décrit les prompts potentiels que le modèle verra en production, avec les réponses attendues.
+==== Types de drift ====
-=== Format du fichier : JSON Lines (.jsonl) ===
+Le drift peut se produire de trois manières différentes :
-L'ensemble du dataset doit être construit dans un format de fichier spécifique appelé **JSON Lines** - extension ''.jsonl''
+**1. Gradual Drift (dérive graduelle)** : La plus courante
+  * Les choses changent avec le temps
+  * Les données sont affectées par ces changements
+  * Exemple : Évolution du langage, nouveaux produits, changement de tendances
-Chaque ligne du fichier contient un objet JSON complet.
+**2. Sudden Drift (dérive soudaine)** : Changement brutal
+  * Se produit lorsque quelque chose de majeur change
+  * Exemple : Crise COVID-19, changement réglementaire majeur, événement géopolitique
-=== Format LightningAI ===
+**3. Recurring Drift (dérive récurrente)** : Effet de la saisonnalité
+  * Patterns qui reviennent périodiquement
+  * Exemple : Variations saisonnières (Noël, été, rentrée scolaire)
-<code json>
+{{:llm:data-drift-types.png?600|Types de drift}}
-{"instruction": "Come up with a riddle", "input": "", "output": "What's full of keys but can't open a single lock?\nAnswer: A piano."}
-{"instruction": "Describe the process of making a paper airplane.", "input": "", "output": "To make a paper airplane, start by folding a piece of paper in half along its width..."}
-{"instruction": "Rewrite the given sentence using jargon pertaining to computer engineering.", "input": "We need to construct a data storage system.", "output": "We need to develop a relational database structure."}
-</code>
-**Structure des objets** :
+==== Data Drift (dérive des données) ====
-  * ''instruction'' : Correspond au prompt qu'un utilisateur écrirait
-  * ''input'' : Correspond à un contexte potentiel (en cas de RAG)
-  * ''output'' : La réponse attendue du modèle
-=== Format OpenAI / Mistral ===
+Le **data drift**, ou changement de covariables (covariate shift), est le fait que les données en production deviennent de moins en moins représentatives de celles de votre ensemble d'entraînement. En d'autres termes, la distribution des données d'entrée a changé.
-<WRAP center round important 80%>
+**Causes courantes** :
-**IMPORTANT** : Selon la plateforme sur laquelle vous effectuerez votre fine-tuning, le format attendu peut différer.
+  * **Événements mondiaux** : COVID-19, crises économiques, changements politiques
-</WRAP>
+  * **Contexte d'application différent** : Utilisation du modèle dans un environnement différent de celui prévu
+  * **Biais du training set** : L'ensemble d'entraînement n'était pas représentatif dès le départ
+  * **Évolution des comportements utilisateurs** : Les gens changent leur façon d'interagir avec le système
-Format pour OpenAI et Mistral :
+**Détection** :
-<code json>
+Le data drift arrive souvent. Ce n'est pas une question de "si" mais de "quand". La seule chose à faire est de définir un seuil au-delà duquel on considère que les données ont trop dévié.
-{"messages": [{"role": "system", "content": "Marv is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "What's the capital of France?"}, {"role": "assistant", "content": "Paris, as if everyone doesn't know that already."}]}
-{"messages": [{"role": "system", "content": "Marv is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "Who wrote 'Romeo and Juliet'?"}, {"role": "assistant", "content": "Oh, just some guy named William Shakespeare. Ever heard of him?"}]}
-{"messages": [{"role": "system", "content": "Marv is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "How far is the Moon from Earth?"}, {"role": "assistant", "content": "Around 384,400 kilometers. Give or take a few, like that really matters."}]}
-</code>
-=== Exemples pratiques de construction de dataset ===
+**Métriques courantes** :
+  * Distribution des features (KL divergence, Jensen-Shannon divergence)
+  * Tests statistiques (Kolmogorov-Smirnov, Chi-carré)
+  * Monitoring des distributions d'entrée
-**Exemple 1 : Assistant juridique**
+==== Target Drift (dérive de la cible) ====
-<code json>
+Le **target drift** (ou concept drift) se produit lorsque les données d'entrée et la variable de sortie perdent leur relation. Le modèle n'est plus représentatif de ce qui se passe dans la réalité.
-{"instruction": "Analyse ce contrat et identifie les clauses problématiques", "input": "[Texte du contrat]", "output": "J'ai identifié 3 clauses nécessitant votre attention :\n1. Clause 4.2 - Limitation de responsabilité excessive...\n2. Clause 7.1 - Période de préavis non conforme...\n3. Clause 9.3 - Clause de non-concurrence trop large..."}
-</code>
-**Exemple 2 : Service client e-commerce**
+**Exemple concret** :
+  * Un modèle prédit la probabilité qu'un email soit du spam
+  * Les techniques de spam évoluent (nouveaux mots-clés, nouvelles stratégies)
+  * Les anciens patterns ne sont plus valides
+  * Le modèle devient inefficace
-<code json>
+**Solution** : Réentraînement périodique avec de nouvelles données.
-{"instruction": "Un client demande le remboursement d'un article défectueux reçu il y a 35 jours", "input": "Politique de retour : 30 jours", "output": "Je comprends votre frustration concernant cet article défectueux. Bien que notre politique standard soit de 30 jours, nous faisons une exception pour les produits défectueux. Je vais initier immédiatement votre remboursement. Vous recevrez un email de confirmation dans l'heure."}
-</code>
-**Exemple 3 : Génération de descriptions produits**
+===== Limitations techniques et opérationnelles =====
-<code json>
+==== 1. Informations inexactes ou trompeuses (Hallucinations) ====
-{"instruction": "Génère une description pour ce produit", "input": "Chaussures de running Nike Air Zoom Pegasus 40 - Noires - Pointure 42", "output": "Découvrez les Nike Air Zoom Pegasus 40, l'alliance parfaite entre confort et performance. Leur amorti réactif Nike Air vous propulse à chaque foulée, tandis que la tige en mesh respirant assure une ventilation optimale. Idéales pour vos entraînements quotidiens comme vos sorties longues, ces chaussures polyvalentes accompagnent tous les coureurs. Disponibles en noir élégant, pointure 42."}
-</code>
-=== Conseils pour créer un dataset de qualité ===
+Les LLM peuvent générer du contenu contenant des inexactitudes ou des informations trompeuses, car ils se basent sur les patterns et associations appris de leurs données d'entraînement plutôt que sur une compréhension profonde du sujet.
-**Diversité** : Couvrez différents types de requêtes et scénarios
+**Exemples d'hallucinations** :
-  * Questions simples et complexes
+  * Inventer des références bibliographiques qui n'existent pas
-  * Différents tons (formel, décontracté, technique)
+  * Citer des statistiques erronées avec confiance
-  * Cas limites et situations exceptionnelles
+  * Créer des faits plausibles mais totalement faux
+  * Mélanger des informations de sources différentes de manière incohérente
-**Cohérence** : Maintenez un style et une qualité uniformes
+**Atténuation** :
-  * Utilisez toujours la même structure de réponse
+  * Utiliser le RAG pour ancrer les réponses dans des sources vérifiées
-  * Respectez le même niveau de détail
+  * Demander des citations et vérifier les sources
-  * Gardez le même ton et la même voix
+  * Utiliser plusieurs modèles et comparer les réponses
+  * Ne jamais faire confiance aveuglément aux informations critiques
-**Qualité > Quantité** : Mieux vaut 100 exemples excellents que 1000 moyens
+==== 2. Absence de mises à jour en temps réel ====
-  * Vérifiez chaque exemple manuellement
-  * Assurez-vous que chaque réponse est exacte
-  * Éliminez les doublons et incohérences
-**Documentation du domaine** : Incluez le vocabulaire et les concepts spécifiques
+La connaissance d'un LLM est limitée aux données sur lesquelles il a été entraîné, avec une date de coupure (knowledge cutoff). Il ne peut donc pas fournir d'informations en temps réel ou vérifier l'exactitude de ses réponses face à de nouveaux développements.
-  * Termes techniques de votre secteur
-  * Acronymes et jargon métier
-  * Structures de réponse attendues
-==== Étape 2 : Division Train/Test ====
+**Dates de coupure courantes** :
+  * GPT-4 : Avril 2023
+  * Claude 3 : Août 2023
+  * Gemini : Avril 2023 (variable selon les versions)
-Une fois votre dataset construit, vous devrez le diviser en deux parties :
+**Solutions** :
+  * Intégration avec des outils de recherche web
+  * RAG avec bases de données à jour
+  * Systèmes hybrides LLM + API externes
-**Ensemble d'entraînement (Training set)** : Les données que le modèle utilisera pour s'entraîner
+==== 3. Verbosité et répétition de certaines phrases ====
-  * **Proportion** : 70-80% du dataset
-  * **Rôle** : Le modèle apprend les patterns de ces données
-**Ensemble de test (Test set)** : Les données que le modèle utilisera pour évaluer ses performances
+Les LLM peuvent parfois produire des réponses verbeuses ou réutiliser certaines phrases, rendant le contenu généré répétitif ou moins naturel.
-  * **Proportion** : 20-30% du dataset restant
-  * **Rôle** : Permet de vérifier que le modèle généralise bien
-**Exemple de division** :
+**Phrases typiques surutilisées** :
+  * "Il est important de noter que..."
+  * "En tant que modèle de langage IA..."
+  * "Cela dépend de divers facteurs..."
+  * "D'une part... d'autre part..."
-Si vous avez 100 exemples :
+**Atténuation** :
-  * 70-80 exemples → ''train.jsonl''
+  * Prompt engineering spécifique pour demander la concision
-  * 20-30 exemples → ''test.jsonl''
+  * Post-traitement pour détecter et éliminer les répétitions
+  * Fine-tuning sur un style d'écriture spécifique
-<WRAP center round tip 80%>
+==== 4. Incapacité à interagir avec des systèmes externes ====
-**Astuce** : Assurez-vous que le test set représente bien la diversité de vos cas d'usage. Ne mettez pas tous les cas faciles dans le train et tous les cas difficiles dans le test (ou vice versa).
-</WRAP>
-=== Quelle est la taille idéale du dataset ? ===
+Les LLM, étant des modèles basés sur le texte, ne possèdent pas la capacité d'interagir directement avec des systèmes externes comme des bases de données, des APIs ou d'autres logiciels.
 <WRAP center round important 80%>
-**NOTE** : Il existe deux règles simples à suivre :
+**NOTE** : Cette limitation est en train d'être résolue avec l'IA agentique et les "function calling" (appel de fonctions), qui permettent aux LLM d'utiliser des outils externes.
-  - **Plus de données, c'est mieux**
-  - **Garbage in, garbage out** (données de mauvaise qualité = résultats de mauvaise qualité)
 </WRAP>
-En suivant ces deux règles, essayez toujours de construire le plus grand dataset possible, mais **aussi propre que possible**. Par "propre", nous entendons des prompts réels et des réponses attendues pertinentes pour l'apprentissage du modèle.
+==== 5. Exigences en ressources pour l'entraînement et le déploiement ====
-**Recommandation OpenAI** :
+L'entraînement et le déploiement de modèles d'IA comme les LLM peuvent nécessiter des ressources informatiques importantes, ce qui peut constituer une barrière à l'entrée pour les petites organisations ou les particuliers.
-  * Commencez avec un dataset de **50 lignes**
-  * Évaluez les améliorations de performance
-  * Si vous voyez des améliorations réelles, construisez un dataset plus large
-**Recommandations générales par type de tâche** :
+**Coûts typiques** :
+  * **Entraînement d'un grand modèle** : Millions à centaines de millions de dollars
+  * **Inférence (utilisation)** : $0.002 à $0.10 par 1000 tokens selon le modèle
+  * **Infrastructure** : Serveurs GPU spécialisés, clusters de calcul
-^ Type de tâche ^ Minimum recommandé ^ Idéal ^
+**Impact environnemental** :
-| Style et ton | 50-100 exemples | 500-1000 |
+  * **Entraînement de GPT-3** : ~552 tonnes de CO2
-| Tâche simple (classification) | 100-200 exemples | 1000-2000 |
+  * **Utilisation quotidienne** : Plusieurs MWh d'électricité pour les grands déploiements
-| Tâche complexe (analyse) | 500-1000 exemples | 5000-10000 |
-| Génération créative | 1000-2000 exemples | 10000+ |
-==== Étape 3 : Lancer le job de fine-tuning ====
+===== Limitations de compréhension contextuelle =====
-Une fois votre dataset prêt, vous avez plusieurs options de plateformes pour effectuer le fine-tuning.
+==== 1. Sensibilité à la formulation de l'entrée ====
-===== Plateformes de fine-tuning =====
+La sortie du modèle peut être sensible à de légers changements dans la formulation de l'entrée, conduisant à des réponses incohérentes ou à des niveaux de détail variables dans le contenu généré.
-==== LightningAI ====
+**Exemple** :
+<code>
+Prompt 1 : "Explique-moi la photosynthèse"
+→ Réponse de niveau collège
-[[https://lightning.ai/|LightningAI]] est une plateforme qui facilite le fine-tuning de modèles open-source.
+Prompt 2 : "Peux-tu m'expliquer la photosynthèse ?"
+→ Réponse potentiellement différente en ton et détail
-**Avantages** :
+Prompt 3 : "Photosynthèse - explique"
-  * Interface utilisateur intuitive
+→ Réponse plus brève et technique
-  * Gratuit pour débuter (crédits offerts)
+</code>
-  * Support de plusieurs modèles open-source
-**Limitations** :
+==== 2. Difficulté avec les requêtes ambiguës ====
-  * Pour utiliser le modèle en dehors de LightningAI, vous aurez besoin de développeurs et ingénieurs ML
-**Modèles disponibles** :
+Les LLM peuvent avoir du mal avec des requêtes ambiguës ou des questions nécessitant une compréhension nuancée du contexte. Dans ces cas, le modèle peut générer du contenu qui semble plausible mais ne répond pas directement à l'intention de l'utilisateur.
-  * Llama 2 et Llama 3
-  * Mistral
-  * Phi-2
-  * Et d'autres modèles open-source
-==== OpenAI ====
+**Exemple** :
+<code>
+Question : "Il fait chaud ici"
+Réponse possible (mauvaise interprétation) : "Je vais vous donner la température actuelle..."
+Intention réelle : L'utilisateur veut peut-être qu'on ouvre une fenêtre ou baisse le chauffage
+</code>
-[[https://platform.openai.com/|OpenAI Platform]] permet de fine-tuner les modèles GPT.
+==== 3. Manque de conscience contextuelle ====
-<WRAP center round alert 80%>
+Les LLM peuvent parfois générer du contenu qui manque de conscience contextuelle ou ne parvient pas à prendre en compte les implications plus larges d'un sujet donné. Cela peut aboutir à un contenu qui semble superficiel ou ne tient pas compte de la complexité des situations du monde réel.
-**IMPORTANT** : Le fine-tuning OpenAI n'est **PAS gratuit**
-Le fine-tuning sur OpenAI a un coût (généralement moins de 1€ pour un petit dataset, mais peut monter rapidement). Les jobs de fine-tuning ne sont **pas inclus** dans l'abonnement GPT+. Vous devrez payer en plus.
+==== 4. Contextes conversationnels longs ====
-</WRAP>
-**Tarification approximative** (à vérifier sur le site OpenAI) :
+Les LLM peuvent avoir des difficultés à maintenir la cohérence dans des contextes conversationnels longs ou lors de réponses à une série de questions interconnectées. Cela peut entraîner des réponses décousues ou contradictoires.
-  * Fine-tuning GPT-3.5 : ~$0.008 par 1K tokens (training)
-  * Utilisation du modèle fine-tuné : ~$0.012 par 1K tokens
-**Avantages** :
+**Limites de fenêtre contextuelle** :
-  * Modèles de très haute qualité
+  * GPT-3.5 : 4K tokens (~3000 mots)
-  * Infrastructure robuste et scalable
+  * GPT-4 : 8K-32K tokens
-  * Documentation excellente
+  * Claude 3 : 200K tokens
+  * Gemini 1.5 : 1M tokens
-**Limitations** :
+Plus la conversation est longue, plus le risque d'incohérence augmente.
-  * Coûts
-  * Modèles propriétaires (vendor lock-in)
-**Modèles disponibles** :
+==== 5. Difficulté avec le langage non littéral ====
-  * GPT-4o mini
-  * GPT-3.5 Turbo
-  * GPT-4 (sur demande)
-==== Mistral AI ====
+Les LLM peuvent avoir du mal à interpréter ou générer du langage non littéral, comme les idiomes, métaphores ou le sarcasme. Cela peut aboutir à des réponses trop littérales, manquant le sens voulu, ou ne transmettant pas le ton désiré.
-[[https://mistral.ai/|Mistral AI]] propose également du fine-tuning pour ses modèles.
+**Exemples problématiques** :
+  * Idiomes : "Il pleut des cordes" interprété littéralement
+  * Sarcasme : Difficulté à détecter le ton ironique
+  * Métaphores : Incompréhension des comparaisons abstraites
-**Avantages** :
+===== Considérations éthiques et sociales =====
-  * Modèles performants et européens
-  * Tarification compétitive
-  * Open-source pour certains modèles
-**Modèles disponibles** :
+==== 1. Raisonnement éthique et moral ====
-  * Mistral 7B
-  * Mistral 8x7B (Mixtral)
-  * Mistral Medium
-==== Alternatives open-source ====
+Les LLM peuvent avoir du mal à engager un raisonnement éthique ou moral. Ils peuvent générer du contenu moralement ambigu ou ne respectant pas les normes éthiques, les rendant inadaptés à certaines applications sans supervision humaine appropriée.
-**Hugging Face AutoTrain** : Interface no-code pour fine-tuner des modèles
+**Problèmes potentiels** :
-  * [[https://huggingface.co/autotrain|AutoTrain]]
+  * Réponses moralement neutres sur des questions éthiques importantes
-  * Gratuit avec vos propres GPUs
+  * Incapacité à comprendre les nuances culturelles
-  * Payant sur leur infrastructure
+  * Risque de normaliser des comportements problématiques
-**Google Colab** : Pour les plus techniques
+==== 2. Réponse aux requêtes inappropriées ou nuisibles ====
-  * Notebooks gratuits avec GPU (limité)
-  * Contrôle total du processus
-  * Nécessite des compétences en Python et ML
-**RunPod / Vast.ai** : Location de GPUs à bas coût
+Les LLM peuvent avoir du mal à reconnaître et gérer de manière cohérente les entrées inappropriées, nuisibles ou offensantes, générant potentiellement du contenu qui viole les directives éthiques ou les attentes des utilisateurs.
-  * Flexibilité totale
-  * Coûts réduits
-  * Nécessite une expertise technique
-===== Processus de fine-tuning étape par étape =====
+**Mesures de protection** :
+  * Filtres de contenu en amont et en aval
+  * Modération humaine pour les cas sensibles
+  * Fine-tuning avec RLHF (Reinforcement Learning from Human Feedback)
-==== 1. Préparation ====
+==== 3. Manque de conscience de soi ====
-<code bash>
+Les LLM manquent de conscience de soi, ce qui signifie qu'ils ne possèdent pas une compréhension de leurs propres limitations, biais ou lacunes de connaissances. Cela peut rendre difficile pour le modèle de générer du contenu qui reconnaît l'incertitude ou indique quand il pourrait fournir des informations incomplètes ou incorrectes.
-# Vérifier le format du dataset
-head -n 3 train.jsonl
-# Vérifier qu'il n'y a pas d'erreurs JSON
+**Conséquence** : Les LLM répondent souvent avec confiance même quand ils sont incertains.
-python -m json.tool train.jsonl > /dev/null
-</code>
-==== 2. Upload du dataset ====
+==== 4. Consommation d'énergie et impact environnemental ====
-Sur OpenAI :
+L'entraînement et l'exécution de modèles d'IA à grande échelle peuvent consommer des quantités importantes d'énergie, contribuant aux préoccupations environnementales et soulevant des questions sur la durabilité et les implications éthiques de leur utilisation généralisée.
-<code bash>
-# Via l'API
-openai api files.create -f train.jsonl -p fine-tune
-openai api files.create -f test.jsonl -p fine-tune
-</code>
-==== 3. Lancement du fine-tuning ====
+**Chiffres clés** :
+  * **Entraînement de GPT-3** : ~1 287 MWh (équivalent à 126 foyers danois pendant un an)
+  * **Empreinte carbone** : Équivalent à ~552 tonnes de CO2
+  * **Utilisation quotidienne** : Des millions de requêtes consommant de l'énergie en continu
-<code bash>
+**Initiatives de réduction** :
-openai api fine_tunes.create \
+  * Modèles plus efficaces (distillation)
-  -t <TRAIN_FILE_ID> \
+  * Datacenters alimentés en énergies renouvelables
-  -v <TEST_FILE_ID> \
+  * Optimisation des infrastructures
-  -m gpt-3.5-turbo \
-  --suffix "mon-modele-support-client"
-</code>
-==== 4. Monitoring ====
+===== Limitations cognitives et créatives =====
-Le fine-tuning peut prendre de quelques minutes à plusieurs heures selon :
+==== 1. Intelligence émotionnelle limitée ====
-  * La taille du dataset
-  * Le modèle choisi
-  * La charge de la plateforme
-Surveillez les métriques :
+En tant que modèle de langage IA, les LLM ont une intelligence émotionnelle limitée, ce qui peut aboutir à du contenu généré manquant d'empathie ou ne reconnaissant et ne répondant pas de manière appropriée au contexte émotionnel d'une requête utilisateur.
-  * **Loss** (perte) : doit diminuer pendant l'entraînement
-  * **Accuracy** (précision) : doit augmenter
-  * **Overfitting** : si la performance sur le test set stagne ou diminue
-==== 5. Évaluation ====
+**Exemples** :
+  * Réponses insensibles à des situations de détresse
+  * Incapacité à détecter la frustration ou l'urgence
+  * Ton inapproprié pour des sujets sensibles
-Une fois le fine-tuning terminé, testez le modèle :
+==== 2. Difficulté à reconnaître et s'adapter à l'expertise de l'utilisateur ====
-<code python>
+Les LLM peuvent ne pas adapter efficacement leur contenu généré au niveau d'expertise ou de familiarité de l'utilisateur avec un sujet spécifique, aboutissant potentiellement à des réponses trop simplistes ou trop techniques qui peuvent ne pas convenir aux besoins de l'utilisateur.
-import openai
-response = openai.ChatCompletion.create(
+**Problème** : Sans indication explicite, le LLM ne sait pas s'il s'adresse à un débutant ou à un expert.
-    model="ft:gpt-3.5-turbo:mon-org:mon-modele:abc123",
-    messages=[
-        {"role": "user", "content": "Question de test"}
-    ]
-)
-print(response.choices[0].message.content)
+**Solution** : Spécifier le niveau dans le prompt ("Explique-moi comme si j'avais 10 ans" / "Explique en termes techniques").
-</code>
-Comparez avec le modèle de base pour mesurer l'amélioration.
+==== 3. Expertise limitée dans des domaines spécifiques ====
-===== Bonnes pratiques =====
+Bien que les LLM puissent générer du contenu sur une large gamme de sujets, ils peuvent manquer de la profondeur de connaissance ou d'expertise trouvée dans des modèles d'IA spécifiques à un domaine. Cela peut limiter leur utilité dans des domaines spécialisés où la précision et l'exactitude sont primordiales.
-==== Qualité du dataset ====
+**Recommandation** : Pour des domaines critiques (médical, juridique, ingénierie), toujours vérifier les informations avec des experts humains.
-✅ **Diversifier les exemples** : Couvrez tous les cas d'usage possibles
+==== 4. Créativité limitée ====
-✅ **Valider manuellement** : Vérifiez chaque exemple avant inclusion
+Bien que les LLM puissent générer du contenu qui semble créatif, leur créativité est finalement limitée par les patterns et associations qu'ils ont appris de leurs données d'entraînement. Cela peut aboutir à du contenu dérivé ou manquant de la nouveauté et de l'originalité trouvées dans les œuvres créatives générées par des humains.
-✅ **Éviter les biais** : Assurez une représentation équilibrée
+**Limites de la créativité** :
+  * Reproduction de patterns existants
+  * Difficulté avec la véritable innovation
+  * Manque d'intuition artistique ou émotionnelle
-✅ **Documenter** : Gardez trace des décisions de création du dataset
+==== 5. Surgénéralisation ====
-❌ **Éviter la duplication** : Pas d'exemples quasi-identiques
+Les LLM peuvent parfois surgénéraliser lors de la génération de contenu, conduisant à des réponses manquant de nuance ou simplifiant à l'excès des sujets complexes. Cela peut aboutir à du contenu qui semble plausible en surface mais ne parvient pas à aborder avec précision les subtilités d'un sujet donné.
-❌ **Éviter les contradictions** : Des exemples qui se contredisent vont perturber l'apprentissage
+==== 6. Incohérence de la qualité ====
-==== Évaluation rigoureuse ====
+La qualité de sortie des LLM peut varier selon l'entrée et le sujet discuté, conduisant à des incohérences dans le niveau de détail, la cohérence ou la pertinence du contenu généré. Cela peut rendre difficile de prédire les performances du modèle dans différents contextes ou applications.
-**Tests quantitatifs** :
+===== Limitations linguistiques et d'interaction =====
-  * Calculez des métriques (accuracy, F1-score, BLEU)
-  * Comparez avec le modèle de base
-  * Testez sur un dataset de validation non vu
-**Tests qualitatifs** :
+==== 1. Incapacité à gérer les requêtes multilingues ====
-  * Testez manuellement sur des cas réels
-  * Faites tester par les utilisateurs finaux
-  * Vérifiez la cohérence du ton et du style
-**A/B Testing** :
+Bien que les LLM aient une certaine capacité à générer du contenu dans plusieurs langues, ils peuvent avoir du mal à gérer efficacement les requêtes impliquant plusieurs langues dans une seule entrée ou nécessitant des traductions entre langues.
-  * Déployez progressivement
-  * Comparez les performances en conditions réelles
-  * Mesurez la satisfaction utilisateur
-==== Gestion des coûts ====
+**Performance par langue** :
+  * **Excellente** : Anglais (la majorité des données d'entraînement)
+  * **Bonne** : Langues européennes majeures (français, espagnol, allemand)
+  * **Variable** : Langues asiatiques, arabe
+  * **Limitée** : Langues à faibles ressources
-**Optimiser le dataset** :
+==== 2. Difficulté à capturer l'intuition humaine ====
-  * Commencez petit (50-100 exemples)
-  * Augmentez seulement si nécessaire
-  * Supprimez les exemples redondants
-**Choisir le bon modèle** :
+Les LLM peuvent avoir du mal à capturer l'intuition humaine, rendant difficile pour le modèle de générer du contenu reflétant la connaissance implicite ou la compréhension tacite sur laquelle les humains s'appuient souvent lors de la communication ou de la prise de décisions.
-  * Commencez par un modèle plus petit (GPT-3.5 vs GPT-4)
-  * Ne passez à un modèle plus grand que si vraiment nécessaire
-**Monitorer l'usage** :
+==== 3. Manque de retour personnalisé ====
-  * Suivez les coûts d'inférence
-  * Optimisez les prompts pour réduire les tokens
-  * Utilisez le cache quand possible
-===== Erreurs courantes à éviter =====
+Les LLM, en tant que modèles de langage à usage général, peuvent ne pas fournir de retour personnalisé adapté aux besoins individuels des utilisateurs ou aux objectifs d'apprentissage. Cela peut limiter leur efficacité dans des contextes éducatifs ou de coaching où des conseils individualisés sont essentiels.
-**Overfitting (surapprentissage)** :
+===== Stratégies d'atténuation =====
-  * Le modèle mémorise les exemples au lieu de généraliser
-  * **Solution** : Dataset plus large et diversifié, plus de données de test
-**Dataset trop petit** :
+Bien que ces limitations soient réelles, il existe des stratégies pour les atténuer :
-  * Le modèle n'a pas assez d'exemples pour apprendre
-  * **Solution** : Augmenter la taille du dataset progressivement
-**Mauvaise qualité des données** :
+==== Au niveau de l'architecture ====
-  * Fautes, incohérences, erreurs factuelles
-  * **Solution** : Validation rigoureuse de chaque exemple
-**Ignorer le test set** :
+✅ **Utiliser des modèles appropriés à la tâche** : Ne pas toujours choisir le plus grand modèle
-  * Ne pas évaluer correctement les performances
-  * **Solution** : Toujours garder un test set représentatif et l'utiliser
-**Mauvais équilibrage** :
+✅ **Combiner plusieurs modèles** : Ensemble learning avec plusieurs LLM
-  * Trop d'exemples d'un type, pas assez d'autres
-  * **Solution** : Assurer une distribution équilibrée des cas d'usage
-===== Fine-tuning vs autres approches =====
+✅ **Monitoring continu** : Surveiller les performances et détecter le drift
-^ Critère ^ Prompt Engineering ^ RAG ^ Fine-tuning ^
+==== Au niveau de l'utilisation ====
-| **Complexité** | Faible | Moyenne | Élevée |
-| **Coût** | Gratuit | Moyen (infrastructure) | Élevé (données + compute) |
-| **Temps de mise en œuvre** | Immédiat | Jours/semaines | Semaines/mois |
-| **Flexibilité** | Très flexible | Flexible | Rigide (nécessite réentraînement) |
-| **Performance** | Bonne | Très bonne | Excellente (sur tâche spécifique) |
-| **Maintenance** | Facile | Moyenne | Complexe |
-| **Données requises** | Aucune | Documents/connaissances | Dataset annoté (50-10000+ exemples) |
-**Quand utiliser quoi ?**
+✅ **Prompt engineering avancé** : Chain-of-thought, few-shot learning
-  * **Prompt Engineering** : Toujours commencer par là
+✅ **RAG** : Ancrer les réponses dans des sources vérifiées
-  * **RAG** : Besoin d'accès à des connaissances externes ou à jour
-  * **Fine-tuning** : Style très spécifique, tâche complexe, ou performances maximales requises
-===== Considérations éthiques et légales =====
+✅ **Human-in-the-loop** : Supervision humaine pour les décisions critiques
-==== Propriété intellectuelle ====
+✅ **Validation croisée** : Comparer les sorties de plusieurs modèles
-  * **Droits sur les données** : Assurez-vous d'avoir le droit d'utiliser toutes les données d'entraînement
+==== Au niveau organisationnel ====
-  * **Droits sur le modèle** : Vérifiez les licences (modèles propriétaires vs open-source)
-  * **Usage commercial** : Certaines licences interdisent l'usage commercial
-==== Protection des données ====
+✅ **Formation des utilisateurs** : Comprendre les limites et les biais
-  * **RGPD** : Si vos données contiennent des informations personnelles
+✅ **Processus de validation** : Ne jamais faire confiance aveuglément
-  * **Anonymisation** : Anonymisez les données sensibles avant fine-tuning
-  * **Localisation** : Attention à où les données sont stockées (UE vs USA)
-==== Biais et équité ====
+✅ **Documentation** : Tracer les décisions et les sources
-  * **Biais dans les données** : Le fine-tuning peut amplifier les biais présents dans votre dataset
+✅ **Audits réguliers** : Évaluer les performances et les biais
-  * **Représentativité** : Assurez-vous que votre dataset représente bien tous vos utilisateurs
-  * **Tests d'équité** : Testez le modèle sur différents groupes démographiques
 ===== Ressources complémentaires =====
-**Documentation officielle** :
+**Études et recherches** :
-  * [[https://platform.openai.com/docs/guides/fine-tuning|OpenAI Fine-tuning Guide]]
+  * [[https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4389233|GPT-4 Passes the Bar Exam (Université de l'Illinois)]]
-  * [[https://docs.mistral.ai/capabilities/finetuning/|Mistral AI Fine-tuning]]
+  * [[https://the-decoder.com/gpt-4-architecture-datasets-costs-and-more-leaked/|GPT-4 Architecture, Datasets, Costs and More]]
-  * [[https://huggingface.co/docs/transformers/training|Hugging Face Training]]
+  * [[https://huggingface.co/blog/large-language-models|Large Language Models: A New Moore's Law?]]
-**Tutoriels pratiques** :
+**Coûts et impact** :
-  * [[https://lightning.ai/docs/pytorch/stable/advanced/finetuning.html|LightningAI Fine-tuning Tutorial]]
+  * [[https://www.mosaicml.com/blog/llm-training-cost|How Much Does it Cost to Train an LLM]]
-  * [[https://www.deeplearning.ai/short-courses/finetuning-large-language-models/|DeepLearning.AI - Finetuning LLMs]]
+  * Impact environnemental des LLM
-**Outils** :
+**Interprétabilité** :
-  * [[https://github.com/Lightning-AI/lit-gpt|LitGPT]] - Fine-tuning open-source facile
+  * [[https://arxiv.org/abs/2302.00093|Rethinking Interpretability in the Era of Large Language Models]]
-  * [[https://github.com/huggingface/autotrain-advanced|AutoTrain]] - No-code fine-tuning
+  * [[https://christophm.github.io/interpretable-ml-book/|Interpretable Machine Learning Book]]
-  * [[https://www.llamaindex.ai/|LlamaIndex]] - Framework pour construire des applications LLM
-**Datasets d'exemple** :
+**Drift et monitoring** :
-  * [[https://huggingface.co/datasets|Hugging Face Datasets]]
+  * [[https://huyenchip.com/2022/02/07/data-distribution-shifts-and-monitoring.html|Notes on Data Distribution Shifts and Monitoring]]
-  * [[https://github.com/Lightning-AI/lit-gpt/tree/main/tutorials|LightningAI Example Datasets]]
+  * [[https://www.evidentlyai.com/blog/ml-monitoring-drift|ML Monitoring: Data Drift]]
+**Outils pratiques** :
+  * [[https://github.com/pytorch/captum|Captum]] - Interprétabilité pour PyTorch
+  * [[https://github.com/slundberg/shap|SHAP]] - Explications de modèles
+  * [[https://github.com/marcotcr/lime|LIME]] - Explications locales
 ===== Conclusion =====
-Le fine-tuning représente une technique puissante pour adapter les modèles de langage à des besoins spécifiques. Bien qu'il nécessite plus d'investissement en temps et en ressources que le prompt engineering ou le RAG, il permet d'atteindre des niveaux de performance supérieurs sur des tâches ciblées.
+Les grands modèles de langage sont des outils remarquablement puissants, mais ils restent des outils avec des limitations importantes. Comprendre ces limitations est essentiel pour :
+  * **Utiliser les LLM de manière appropriée** : Choisir les bons cas d'usage
+  * **Éviter les risques** : Mettre en place des garde-fous adéquats
+  * **Optimiser les performances** : Combiner les LLM avec d'autres techniques (RAG, fine-tuning)
+  * **Maintenir la confiance** : Transparence sur les capacités et limites
 **Points clés à retenir** :
-  * Commencez toujours par le prompt engineering et le RAG avant d'envisager le fine-tuning
+  * Plus grand ne signifie pas forcément meilleur
-  * La qualité du dataset est critique : mieux vaut 100 excellents exemples que 1000 moyens
+  * L'interprétabilité reste un défi majeur
-  * Évaluez rigoureusement avec un test set représentatif
+  * Le drift est inévitable et doit être surveillé
-  * Considérez les coûts et la complexité de maintenance
+  * Les limitations contextuelles nécessitent une supervision humaine
-  * Assurez-vous d'avoir les droits et de respecter la réglementation
+  * Les considérations éthiques et environnementales sont essentielles
-Le fine-tuning n'est pas une solution miracle, mais utilisé correctement, il peut transformer un modèle générique en un assistant spécialisé parfaitement adapté à vos besoins métier.
+L'avenir des LLM passe par une meilleure compréhension et atténuation de ces limitations, avec des approches hybrides combinant IA et expertise humaine.