ai:limitations
Différences
Ci-dessous, les différences entre deux révisions de la page.
| ai:limitations [2025/10/20 22:16] – créée admin | ai:limitations [2025/10/20 22:16] (Version actuelle) – admin | ||
|---|---|---|---|
| Ligne 1: | Ligne 1: | ||
| - | ====== | + | ====== |
| ===== Introduction ===== | ===== Introduction ===== | ||
| - | Le **fine-tuning** (ajustement fin) représente l' | + | Bien que les grands |
| - | Ce guide explore les niveaux de personnalisation | + | Ce guide explore les principales limitations |
| + | * Architecture des modèles | ||
| + | * Gestion des données | ||
| + | * Interprétabilité | ||
| + | * Fiabilité | ||
| - | ===== Les niveaux de personnalisation | + | ===== Architecture |
| - | À mesure que votre organisation intègre | + | ==== Du grand à l'extra-grand ==== |
| - | {{: | + | L'une des principales limitations d'un LLM réside dans... lui-même. Plus précisément dans son architecture. Pour qu'un modèle soit performant, il doit généralement devenir |
| - | ==== Niveau 1 : Prompt Engineering ==== | + | === Évolution de la taille des modèles |
| - | **Complexité** | + | Une étude de l' |
| - | **Performance potentielle** : Modérée | + | |
| - | Optimisez les performances | + | * GPT-2 : ~10% de réussite |
| + | * GPT-3.5 : ~45% de réussite | ||
| + | * GPT-4 : ~75% de réussite | ||
| + | * Étudiants moyens : ~68% de réussite | ||
| - | **Avantages** : | + | **Taille des modèles** : |
| - | * Aucun coût supplémentaire | + | * ChatGPT-3 : 175 milliards de paramètres |
| - | * Mise en œuvre immédiate | + | * ChatGPT-4 : 1,76 trillion |
| - | * Pas de compétences techniques avancées requises | + | |
| - | **Limitations** : | + | === Croissance exponentielle |
| - | * Performances limitées par les capacités du modèle de base | + | |
| - | * Nécessite | + | |
| - | **Quand l' | + | Cette tendance ne concerne pas seulement OpenAI. Tous les modèles |
| - | ==== Niveau 2 : RAG (Retrieval-Augmented Generation) ==== | + | ^ Année ^ Modèle ^ Taille |
| + | | 2018 | ELMo | 94M | | ||
| + | | 2019 | BERT-Large | 340M | | ||
| + | | 2019 | GPT-2 | 1.5B | | ||
| + | | 2020 | T5 | 11B | | ||
| + | | 2020 | GPT-3 | 175B | | ||
| + | | 2021 | Turing-NLG | 17.2B | | ||
| + | | 2022 | Megatron-Turing NLG | 530B | | ||
| - | **Complexité** : Modérée | + | ==== Le problème de la puissance de calcul ==== |
| - | **Performance potentielle** : Élevée | + | |
| - | Connectez des sources | + | Plus le modèle est grand, plus la puissance |
| - | **Avantages** : | + | **Coûts estimés d' |
| - | * Accès à des données à jour | + | * GPT-3 : ~4,6 millions de dollars |
| - | * Réduction des hallucinations | + | * GPT-4 : estimé à plus de 100 millions de dollars |
| - | * Pas besoin | + | * Modèles futurs : potentiellement des centaines |
| - | **Limitations** : | + | Et ce n'est pas seulement |
| - | * Nécessite | + | |
| - | * Coûts | + | |
| - | * Dépend | + | |
| - | **Quand l' | + | ==== Plus grand ≠ forcément meilleur ==== |
| - | ==== Niveau 3 : Fine-tuning ==== | + | À mesure que les modèles grossissent, |
| - | **Complexité** : Élevée | + | === 1. Qualité des données === |
| - | **Performance potentielle** : Très élevée | + | |
| - | Ajustez | + | Plus les besoins |
| - | **Avantages** : | + | **Problèmes émergents** : |
| - | * Amélioration drastique sur des tâches spécifiques | + | * Épuisement |
| - | * Réduction | + | * Risque accru de contamination par du contenu généré par IA |
| - | * Style et ton cohérents | + | * Difficulté à filtrer le bruit et les informations erronées |
| - | **Limitations** : | + | === 2. Overfitting |
| - | * Nécessite un dataset de qualité | + | |
| - | * Coûts d' | + | |
| - | * Compétences techniques requises | + | |
| - | * Risque de surapprentissage | + | |
| - | **Quand | + | Un modèle plus grand est plus susceptible d' |
| - | ==== Niveau 4 : Continued Training (Entraînement continu) ==== | + | **Conséquences** |
| + | * Performance excellente sur les données d' | ||
| + | * Performance décevante sur de nouvelles données | ||
| + | * Manque de robustesse face à des variations | ||
| - | **Complexité** : Très élevée | + | **Conclusion** : Avoir un modèle plus grand ne signifie pas forcément de meilleures performances. On ne peut augmenter la taille d'un modèle que si les données augmentent également en qualité et en quantité. |
| - | **Performance potentielle** : Maximale | + | |
| - | Il s'agit d' | + | ==== Alternative : généralisation vs spécialisation |
| - | **Avantages** | + | Pour atténuer le risque d' |
| - | * Performance maximale sur un domaine spécifique | + | |
| - | * Modèle complètement adapté | + | |
| - | **Limitations** : | + | **Construire de nombreux " |
| - | * Coûts très élevés | + | |
| - | * Nécessite une expertise en ML avancée | + | |
| - | * Temps de développement important | + | |
| - | **Quand l' | + | ^ Approche ^ Avantages ^ Inconvénients ^ |
| + | | **Modèles généralisés** (GPT-4, Claude) | Polyvalents, | ||
| + | | **Modèles spécialisés** (BERT pour classification, | ||
| - | ===== Qu'est-ce que le fine-tuning ? ===== | + | **Usage recommandé** : Utiliser un modèle généralisé pour la plupart des tâches, et des modèles spécialisés pour les cas où la précision |
| - | Le fine-tuning est le processus d' | + | ===== Interprétabilité et transparence ===== |
| - | Imaginez qu'un LLM est comme un étudiant qui a reçu une éducation générale. | + | ==== Le problème de la boîte noire ==== |
| - | ===== Quand le fine-tuning est-il nécessaire ? ===== | + | Regardons la fondation de tous les LLM : **la couche d' |
| - | Vous avez atteint les limites du prompt engineering et devez encore améliorer les performances. Le fine-tuning peut être une bonne solution si : | + | {{:llm: |
| - | * Vous souhaitez définir un **style, ton, format ou autres aspects qualitatifs spécifiques** | + | L'architecture est si complexe qu'il devient extrêmement difficile de comprendre comment |
| - | * Vous avez des **types de réponses spécifiques** qui doivent être données à l'utilisateur final | + | |
| - | * Les **tâches sont trop complexes** pour être exprimées dans un prompt | + | |
| - | ===== Cas d'usage concrets en entreprise ===== | + | **Pourquoi c'est un problème** : |
| - | ==== 1. Automatisation du support client ==== | + | * **Secteur bancaire** : Impossible d' |
| + | * **RGPD** : L' | ||
| + | * **Médical** : Nécessité de comprendre le raisonnement pour des diagnostics | ||
| + | * **Juridique** : Besoin de traçabilité et de justification des décisions | ||
| - | ^ Scénario ^ Problème initial ^ Solution ^ Bénéfices ^ | + | ==== Solutions |
| - | | Une entreprise souhaite déployer un assistant virtuel pour gérer les demandes clients plus efficacement | Le LLM générique ne comprend pas pleinement les produits, services ou jargon spécifiques de l' | + | |
| - | **Exemple concret** : Un opérateur télécom fine-tune un modèle sur 10 000 conversations | + | Certains papiers |
| - | * Le vocabulaire technique spécifique (ADSL, fibre, débit, box) | + | |
| - | * Les procédures de dépannage standard | + | |
| - | * Le ton empathique et professionnel de la marque | + | |
| - | **Résultat** : 60% des demandes simples sont résolues automatiquement, | + | === Techniques |
| - | ==== 2. Personnalisation de contenu en e-commerce ==== | + | **Chain-of-Thought (Chaîne de pensée)** : Demander au modèle d' |
| - | ^ Scénario ^ Problème initial ^ Solution ^ Bénéfices ^ | + | < |
| - | | Une plateforme e-commerce vise à améliorer l' | + | Prompt standard : |
| + | " | ||
| - | **Exemple concret** : Un site de mode fine-tune un modèle sur 50 000 descriptions de produits et leurs performances de vente. Le modèle apprend | + | Chain-of-Thought |
| - | * Le style rédactionnel qui convertit le mieux | + | " |
| - | * Les caractéristiques à mettre en avant par catégorie | + | 1. D' |
| - | * Les associations de produits qui fonctionnent | + | 2. Ensuite, calcule |
| + | 3. Enfin, vérifie ton résultat" | ||
| + | </ | ||
| - | **Résultat** : +25% de taux de conversion sur les fiches produits générées par le modèle fine-tuné. | + | === Outils d' |
| - | ==== 3. Analyse | + | **LIME (Local Interpretable Model-agnostic Explanations)** : Outil populaire qui aide à expliquer les prédictions |
| - | ^ Scénario ^ Problème initial ^ Solution ^ Bénéfices ^ | + | **SHAP |
| - | | Une société de services financiers doit analyser et résumer de grands volumes de documents financiers | + | |
| - | **Exemple concret** : Une banque | + | **Integrated Gradients** : Technique pour attribuer la prédiction |
| - | * La structure standard des rapports financiers | + | |
| - | * Les indicateurs clés à extraire | + | |
| - | * Les signaux | + | |
| - | **Résultat** : Analyse de rapports 10x plus rapide, avec extraction automatique | + | **Attention Maps (Cartes d' |
| - | ===== Comment créer un job de fine-tuning ? ===== | + | **Captum** : Bibliothèque open-source créée par Facebook (Meta), qui offre une large gamme d' |
| - | Pour créer un job de fine-tuning, vous devrez | + | **What-If Tool** |
| - | - **Construire un dataset** | + | ===== Drift (dérive des performances) ===== |
| - | - **Diviser ce dataset** en ensemble d' | + | |
| - | - **Entraîner le modèle** de votre choix | + | |
| - | ==== Étape 1 : Construire | + | Vous pensiez avoir terminé une fois le LLM entraîné ? Détrompez-vous ! Au fil du temps, les performances d'un modèle peuvent se dégrader. C'est ce qu'on appelle le **drift** (dérive). |
| - | C'est la partie **la plus difficile et la plus longue**. Vous devrez construire manuellement un dataset qui décrit les prompts potentiels que le modèle verra en production, avec les réponses attendues. | + | ==== Types de drift ==== |
| - | === Format du fichier | + | Le drift peut se produire de trois manières différentes |
| - | L' | + | **1. Gradual Drift (dérive graduelle)** : La plus courante |
| + | * Les choses changent avec le temps | ||
| + | * Les données sont affectées par ces changements | ||
| + | * Exemple : Évolution du langage, nouveaux produits, changement de tendances | ||
| - | Chaque ligne du fichier contient un objet JSON complet. | + | **2. Sudden Drift (dérive soudaine)** : Changement brutal |
| + | * Se produit lorsque quelque chose de majeur change | ||
| + | * Exemple : Crise COVID-19, changement réglementaire majeur, événement géopolitique | ||
| - | === Format LightningAI === | + | **3. Recurring Drift (dérive récurrente)** : Effet de la saisonnalité |
| + | * Patterns qui reviennent périodiquement | ||
| + | * Exemple : Variations saisonnières (Noël, été, rentrée scolaire) | ||
| - | <code json> | + | {{:llm:data-drift-types.png? |
| - | {" | + | |
| - | {" | + | |
| - | {" | + | |
| - | </ | + | |
| - | **Structure des objets** : | + | ==== Data Drift (dérive des données) ==== |
| - | * '' | + | |
| - | * '' | + | |
| - | * '' | + | |
| - | === Format OpenAI / Mistral === | + | Le **data drift**, ou changement de covariables (covariate shift), est le fait que les données en production deviennent de moins en moins représentatives de celles de votre ensemble d' |
| - | <WRAP center round important 80%> | + | **Causes courantes** : |
| - | **IMPORTANT** : Selon la plateforme sur laquelle vous effectuerez votre fine-tuning, le format attendu peut différer. | + | * **Événements mondiaux** : COVID-19, crises économiques, |
| - | </ | + | * **Contexte d' |
| + | * **Biais du training set** : L' | ||
| + | * **Évolution des comportements utilisateurs** : Les gens changent leur façon d' | ||
| - | Format pour OpenAI et Mistral | + | **Détection** |
| - | <code json> | + | Le data drift arrive souvent. Ce n'est pas une question de "si" |
| - | {" | + | |
| - | {" | + | |
| - | {" | + | |
| - | </ | + | |
| - | === Exemples pratiques de construction de dataset === | + | **Métriques courantes** : |
| + | * Distribution des features (KL divergence, Jensen-Shannon divergence) | ||
| + | * Tests statistiques (Kolmogorov-Smirnov, | ||
| + | * Monitoring des distributions d' | ||
| - | **Exemple 1 : Assistant juridique** | + | ==== Target Drift (dérive de la cible) ==== |
| - | <code json> | + | Le **target drift** (ou concept drift) se produit lorsque |
| - | {" | + | |
| - | </ | + | |
| - | **Exemple | + | **Exemple |
| + | * Un modèle prédit la probabilité qu'un email soit du spam | ||
| + | * Les techniques de spam évoluent (nouveaux mots-clés, nouvelles stratégies) | ||
| + | | ||
| + | | ||
| - | <code json> | + | **Solution** |
| - | {" | + | |
| - | </ | + | |
| - | **Exemple 3 : Génération de descriptions produits** | + | ===== Limitations techniques et opérationnelles ===== |
| - | <code json> | + | ==== 1. Informations inexactes ou trompeuses (Hallucinations) ==== |
| - | {" | + | |
| - | </ | + | |
| - | === Conseils pour créer un dataset | + | Les LLM peuvent générer du contenu contenant des inexactitudes ou des informations trompeuses, car ils se basent sur les patterns et associations appris |
| - | **Diversité** : Couvrez différents types de requêtes et scénarios | + | **Exemples d' |
| - | * Questions simples et complexes | + | * Inventer des références bibliographiques qui n' |
| - | * Différents tons (formel, décontracté, | + | * Citer des statistiques erronées avec confiance |
| - | * Cas limites et situations exceptionnelles | + | * Créer des faits plausibles mais totalement faux |
| + | * Mélanger des informations de sources différentes de manière incohérente | ||
| - | **Cohérence** : Maintenez un style et une qualité uniformes | + | **Atténuation** : |
| - | * Utilisez toujours la même structure de réponse | + | * Utiliser le RAG pour ancrer les réponses dans des sources vérifiées |
| - | * Respectez le même niveau de détail | + | * Demander des citations et vérifier les sources |
| - | * Gardez le même ton et la même voix | + | * Utiliser plusieurs modèles |
| + | * Ne jamais faire confiance aveuglément aux informations critiques | ||
| - | **Qualité > Quantité** : Mieux vaut 100 exemples excellents que 1000 moyens | + | ==== 2. Absence de mises à jour en temps réel ==== |
| - | * Vérifiez chaque exemple manuellement | + | |
| - | * Assurez-vous que chaque réponse est exacte | + | |
| - | * Éliminez les doublons et incohérences | + | |
| - | **Documentation du domaine** : Incluez le vocabulaire et les concepts spécifiques | + | La connaissance d'un LLM est limitée aux données sur lesquelles il a été entraîné, avec une date de coupure (knowledge cutoff). Il ne peut donc pas fournir d' |
| - | * Termes techniques | + | |
| - | * Acronymes et jargon métier | + | |
| - | * Structures | + | |
| - | ==== Étape 2 : Division Train/Test ==== | + | **Dates de coupure courantes** |
| + | * GPT-4 : Avril 2023 | ||
| + | * Claude 3 : Août 2023 | ||
| + | * Gemini : Avril 2023 (variable selon les versions) | ||
| - | Une fois votre dataset construit, vous devrez le diviser en deux parties | + | **Solutions** |
| + | * Intégration avec des outils de recherche web | ||
| + | * RAG avec bases de données à jour | ||
| + | * Systèmes hybrides LLM + API externes | ||
| - | **Ensemble d' | + | ==== 3. Verbosité et répétition |
| - | * **Proportion** : 70-80% du dataset | + | |
| - | * **Rôle** : Le modèle apprend les patterns | + | |
| - | **Ensemble de test (Test set)** : Les données que le modèle utilisera pour évaluer ses performances | + | Les LLM peuvent parfois produire des réponses verbeuses ou réutiliser certaines phrases, rendant |
| - | * **Proportion** : 20-30% du dataset restant | + | |
| - | * **Rôle** : Permet de vérifier que le modèle généralise bien | + | |
| - | **Exemple de division** : | + | **Phrases typiques surutilisées** : |
| + | * "Il est important de noter que..." | ||
| + | * "En tant que modèle de langage IA..." | ||
| + | * "Cela dépend de divers facteurs..." | ||
| + | * " | ||
| - | Si vous avez 100 exemples | + | **Atténuation** |
| - | * 70-80 exemples → '' | + | * Prompt engineering spécifique pour demander la concision |
| - | * 20-30 exemples → '' | + | * Post-traitement pour détecter et éliminer les répétitions |
| + | * Fine-tuning sur un style d'écriture spécifique | ||
| - | <WRAP center round tip 80%> | + | ==== 4. Incapacité à interagir avec des systèmes externes ==== |
| - | **Astuce** : Assurez-vous que le test set représente bien la diversité de vos cas d' | + | |
| - | </ | + | |
| - | === Quelle est la taille idéale du dataset ? === | + | Les LLM, étant des modèles basés sur le texte, ne possèdent pas la capacité d' |
| <WRAP center round important 80%> | <WRAP center round important 80%> | ||
| - | **NOTE** : Il existe deux règles simples à suivre : | + | **NOTE** : Cette limitation est en train d'être résolue avec l'IA agentique et les " |
| - | + | ||
| - | - **Plus de données, c'est mieux** | + | |
| - | - **Garbage in, garbage out** (données | + | |
| </ | </ | ||
| - | En suivant ces deux règles, essayez toujours de construire le plus grand dataset possible, mais **aussi propre que possible**. Par " | + | ==== 5. Exigences en ressources |
| - | **Recommandation OpenAI** : | + | L' |
| - | * Commencez avec un dataset | + | |
| - | * Évaluez | + | |
| - | * Si vous voyez des améliorations réelles, construisez un dataset plus large | + | |
| - | **Recommandations générales par type de tâche** : | + | **Coûts typiques** : |
| + | * **Entraînement d'un grand modèle** : Millions à centaines | ||
| + | * **Inférence (utilisation)** : $0.002 à $0.10 par 1000 tokens selon le modèle | ||
| + | * **Infrastructure** : Serveurs GPU spécialisés, | ||
| - | ^ Type de tâche ^ Minimum recommandé ^ Idéal ^ | + | **Impact environnemental** : |
| - | | Style et ton | 50-100 exemples | 500-1000 | | + | * **Entraînement |
| - | | Tâche simple (classification) | 100-200 exemples | 1000-2000 | | + | * **Utilisation quotidienne** : Plusieurs MWh d' |
| - | | Tâche complexe (analyse) | 500-1000 exemples | 5000-10000 | | + | |
| - | | Génération créative | 1000-2000 exemples | 10000+ | | + | |
| - | ==== Étape 3 : Lancer le job de fine-tuning | + | ===== Limitations |
| - | Une fois votre dataset prêt, vous avez plusieurs options de plateformes pour effectuer le fine-tuning. | + | ==== 1. Sensibilité à la formulation de l' |
| - | ===== Plateformes | + | La sortie du modèle peut être sensible à de légers changements dans la formulation de l' |
| - | ==== LightningAI ==== | + | **Exemple** : |
| + | < | ||
| + | Prompt 1 : " | ||
| + | → Réponse de niveau collège | ||
| - | [[https:// | + | Prompt 2 : "Peux-tu m' |
| + | → Réponse potentiellement différente en ton et détail | ||
| - | **Avantages** | + | Prompt 3 : " |
| - | * Interface utilisateur intuitive | + | → Réponse plus brève et technique |
| - | * Gratuit pour débuter (crédits offerts) | + | </ |
| - | * Support de plusieurs modèles open-source | + | |
| - | **Limitations** : | + | ==== 2. Difficulté avec les requêtes ambiguës ==== |
| - | * Pour utiliser le modèle en dehors de LightningAI, | + | |
| - | **Modèles disponibles** : | + | Les LLM peuvent avoir du mal avec des requêtes ambiguës ou des questions nécessitant une compréhension nuancée du contexte. Dans ces cas, le modèle peut générer du contenu qui semble plausible mais ne répond pas directement à l'intention de l' |
| - | * Llama 2 et Llama 3 | + | |
| - | * Mistral | + | |
| - | * Phi-2 | + | |
| - | * Et d'autres modèles open-source | + | |
| - | ==== OpenAI ==== | + | **Exemple** : |
| + | < | ||
| + | Question : "Il fait chaud ici" | ||
| + | Réponse possible (mauvaise interprétation) : "Je vais vous donner la température actuelle..." | ||
| + | Intention réelle : L' | ||
| + | </ | ||
| - | [[https:// | + | ==== 3. Manque |
| - | <WRAP center round alert 80%> | + | Les LLM peuvent parfois générer du contenu qui manque de conscience contextuelle ou ne parvient pas à prendre en compte les implications plus larges d'un sujet donné. Cela peut aboutir à un contenu qui semble superficiel ou ne tient pas compte de la complexité des situations du monde réel. |
| - | **IMPORTANT** : Le fine-tuning OpenAI n'est **PAS gratuit** | + | |
| - | Le fine-tuning sur OpenAI a un coût (généralement moins de 1€ pour un petit dataset, mais peut monter rapidement). Les jobs de fine-tuning ne sont **pas inclus** dans l' | + | ==== 4. Contextes conversationnels longs ==== |
| - | </ | + | |
| - | **Tarification approximative** (à vérifier sur le site OpenAI) : | + | Les LLM peuvent avoir des difficultés |
| - | * Fine-tuning GPT-3.5 : ~$0.008 par 1K tokens (training) | + | |
| - | * Utilisation du modèle fine-tuné : ~$0.012 par 1K tokens | + | |
| - | **Avantages** : | + | **Limites de fenêtre contextuelle** : |
| - | * Modèles de très haute qualité | + | * GPT-3.5 : 4K tokens (~3000 mots) |
| - | * Infrastructure robuste et scalable | + | * GPT-4 : 8K-32K tokens |
| - | * Documentation excellente | + | * Claude 3 : 200K tokens |
| + | * Gemini 1.5 : 1M tokens | ||
| - | **Limitations** : | + | Plus la conversation est longue, plus le risque d' |
| - | * Coûts | + | |
| - | * Modèles propriétaires (vendor lock-in) | + | |
| - | **Modèles disponibles** : | + | ==== 5. Difficulté avec le langage non littéral ==== |
| - | * GPT-4o mini | + | |
| - | * GPT-3.5 Turbo | + | |
| - | * GPT-4 (sur demande) | + | |
| - | ==== Mistral AI ==== | + | Les LLM peuvent avoir du mal à interpréter ou générer du langage non littéral, comme les idiomes, métaphores ou le sarcasme. Cela peut aboutir à des réponses trop littérales, |
| - | [[https:// | + | **Exemples problématiques** |
| + | * Idiomes : "Il pleut des cordes" | ||
| + | * Sarcasme : Difficulté à détecter le ton ironique | ||
| + | * Métaphores : Incompréhension des comparaisons abstraites | ||
| - | **Avantages** : | + | ===== Considérations éthiques |
| - | * Modèles performants | + | |
| - | * Tarification compétitive | + | |
| - | * Open-source pour certains modèles | + | |
| - | **Modèles disponibles** : | + | ==== 1. Raisonnement éthique et moral ==== |
| - | * Mistral 7B | + | |
| - | * Mistral 8x7B (Mixtral) | + | |
| - | * Mistral Medium | + | |
| - | ==== Alternatives open-source ==== | + | Les LLM peuvent avoir du mal à engager un raisonnement éthique ou moral. Ils peuvent générer du contenu moralement ambigu ou ne respectant pas les normes éthiques, les rendant inadaptés à certaines applications sans supervision humaine appropriée. |
| - | **Hugging Face AutoTrain** : Interface no-code pour fine-tuner des modèles | + | **Problèmes potentiels** : |
| - | * [[https:// | + | * Réponses moralement neutres sur des questions éthiques importantes |
| - | * Gratuit avec vos propres GPUs | + | * Incapacité à comprendre les nuances culturelles |
| - | * Payant sur leur infrastructure | + | * Risque de normaliser des comportements problématiques |
| - | **Google Colab** : Pour les plus techniques | + | ==== 2. Réponse aux requêtes inappropriées ou nuisibles ==== |
| - | * Notebooks gratuits avec GPU (limité) | + | |
| - | * Contrôle total du processus | + | |
| - | * Nécessite des compétences en Python et ML | + | |
| - | **RunPod / Vast.ai** : Location de GPUs à bas coût | + | Les LLM peuvent avoir du mal à reconnaître et gérer de manière cohérente les entrées inappropriées, |
| - | * Flexibilité totale | + | |
| - | * Coûts réduits | + | |
| - | * Nécessite une expertise technique | + | |
| - | ===== Processus | + | **Mesures |
| + | * Filtres de contenu en amont et en aval | ||
| + | * Modération humaine pour les cas sensibles | ||
| + | * Fine-tuning | ||
| - | ==== 1. Préparation | + | ==== 3. Manque de conscience de soi ==== |
| - | <code bash> | + | Les LLM manquent de conscience de soi, ce qui signifie qu'ils ne possèdent pas une compréhension de leurs propres limitations, |
| - | # Vérifier | + | |
| - | head -n 3 train.jsonl | + | |
| - | # Vérifier qu'il n'y a pas d' | + | **Conséquence** : Les LLM répondent souvent avec confiance même quand ils sont incertains. |
| - | python -m json.tool train.jsonl > /dev/null | + | |
| - | </ | + | |
| - | ==== 2. Upload du dataset | + | ==== 4. Consommation d' |
| - | Sur OpenAI : | + | L' |
| - | <code bash> | + | |
| - | # Via l'API | + | |
| - | openai api files.create -f train.jsonl -p fine-tune | + | |
| - | openai api files.create -f test.jsonl -p fine-tune | + | |
| - | </ | + | |
| - | ==== 3. Lancement du fine-tuning ==== | + | **Chiffres clés** : |
| + | * **Entraînement de GPT-3** : ~1 287 MWh (équivalent à 126 foyers danois pendant un an) | ||
| + | * **Empreinte carbone** : Équivalent à ~552 tonnes de CO2 | ||
| + | * **Utilisation quotidienne** : Des millions de requêtes consommant de l' | ||
| - | <code bash> | + | **Initiatives de réduction** : |
| - | openai api fine_tunes.create \ | + | |
| - | | + | |
| - | | + | |
| - | | + | |
| - | --suffix " | + | |
| - | </ | + | |
| - | ==== 4. Monitoring | + | ===== Limitations cognitives et créatives ===== |
| - | Le fine-tuning peut prendre de quelques minutes à plusieurs heures selon : | + | ==== 1. Intelligence émotionnelle limitée ==== |
| - | * La taille du dataset | + | |
| - | * Le modèle choisi | + | |
| - | * La charge de la plateforme | + | |
| - | Surveillez | + | En tant que modèle de langage IA, les LLM ont une intelligence émotionnelle limitée, ce qui peut aboutir à du contenu généré manquant d'empathie |
| - | * **Loss** (perte) : doit diminuer pendant l'entraînement | + | |
| - | * **Accuracy** (précision) : doit augmenter | + | |
| - | * **Overfitting** : si la performance sur le test set stagne | + | |
| - | ==== 5. Évaluation ==== | + | **Exemples** : |
| + | * Réponses insensibles à des situations de détresse | ||
| + | * Incapacité à détecter la frustration ou l' | ||
| + | * Ton inapproprié pour des sujets sensibles | ||
| - | Une fois le fine-tuning terminé, testez le modèle : | + | ==== 2. Difficulté à reconnaître et s' |
| - | <code python> | + | Les LLM peuvent ne pas adapter efficacement leur contenu généré au niveau d' |
| - | import openai | + | |
| - | response = openai.ChatCompletion.create( | + | **Problème** |
| - | model=" | + | |
| - | messages=[ | + | |
| - | {" | + | |
| - | ] | + | |
| - | ) | + | |
| - | print(response.choices[0].message.content) | + | **Solution** : Spécifier le niveau dans le prompt |
| - | </ | + | |
| - | Comparez avec le modèle de base pour mesurer l' | + | ==== 3. Expertise limitée dans des domaines spécifiques ==== |
| - | ===== Bonnes pratiques ===== | + | Bien que les LLM puissent générer du contenu sur une large gamme de sujets, ils peuvent manquer de la profondeur de connaissance ou d' |
| - | ==== Qualité du dataset ==== | + | **Recommandation** : Pour des domaines critiques (médical, juridique, ingénierie), |
| - | ✅ **Diversifier les exemples** : Couvrez tous les cas d' | + | ==== 4. Créativité limitée ==== |
| - | ✅ **Valider manuellement** : Vérifiez chaque exemple avant inclusion | + | Bien que les LLM puissent générer du contenu qui semble créatif, leur créativité est finalement limitée par les patterns et associations qu'ils ont appris de leurs données d' |
| - | ✅ **Éviter les biais** : Assurez une représentation équilibrée | + | **Limites de la créativité** : |
| + | * Reproduction de patterns existants | ||
| + | * Difficulté avec la véritable innovation | ||
| + | * Manque d' | ||
| - | ✅ **Documenter** : Gardez trace des décisions de création du dataset | + | ==== 5. Surgénéralisation ==== |
| - | ❌ **Éviter | + | Les LLM peuvent parfois surgénéraliser lors de la génération de contenu, conduisant à des réponses manquant de nuance ou simplifiant à l' |
| - | ❌ **Éviter les contradictions** : Des exemples qui se contredisent vont perturber l' | + | ==== 6. Incohérence de la qualité ==== |
| - | ==== Évaluation rigoureuse ==== | + | La qualité de sortie des LLM peut varier selon l' |
| - | **Tests quantitatifs** : | + | ===== Limitations linguistiques et d' |
| - | * Calculez des métriques (accuracy, F1-score, BLEU) | + | |
| - | * Comparez avec le modèle de base | + | |
| - | * Testez sur un dataset de validation non vu | + | |
| - | **Tests qualitatifs** : | + | ==== 1. Incapacité à gérer |
| - | * Testez manuellement sur des cas réels | + | |
| - | * Faites tester par les utilisateurs finaux | + | |
| - | * Vérifiez la cohérence du ton et du style | + | |
| - | **A/B Testing** : | + | Bien que les LLM aient une certaine capacité à générer du contenu dans plusieurs langues, ils peuvent avoir du mal à gérer efficacement les requêtes impliquant plusieurs langues dans une seule entrée ou nécessitant des traductions entre langues. |
| - | * Déployez progressivement | + | |
| - | * Comparez | + | |
| - | * Mesurez la satisfaction utilisateur | + | |
| - | ==== Gestion | + | **Performance par langue** : |
| + | * **Excellente** : Anglais (la majorité | ||
| + | * **Bonne** : Langues européennes majeures (français, espagnol, allemand) | ||
| + | * **Variable** : Langues asiatiques, arabe | ||
| + | * **Limitée** : Langues à faibles ressources | ||
| - | **Optimiser le dataset** : | + | ==== 2. Difficulté à capturer l' |
| - | * Commencez petit (50-100 exemples) | + | |
| - | * Augmentez seulement si nécessaire | + | |
| - | * Supprimez les exemples redondants | + | |
| - | **Choisir | + | Les LLM peuvent avoir du mal à capturer l' |
| - | * Commencez par un modèle plus petit (GPT-3.5 vs GPT-4) | + | |
| - | * Ne passez à un modèle plus grand que si vraiment nécessaire | + | |
| - | **Monitorer l' | + | ==== 3. Manque de retour personnalisé ==== |
| - | * Suivez les coûts d' | + | |
| - | * Optimisez les prompts pour réduire les tokens | + | |
| - | * Utilisez le cache quand possible | + | |
| - | ===== Erreurs courantes | + | Les LLM, en tant que modèles de langage |
| - | **Overfitting (surapprentissage)** : | + | ===== Stratégies d' |
| - | * Le modèle mémorise les exemples au lieu de généraliser | + | |
| - | * **Solution** : Dataset plus large et diversifié, | + | |
| - | **Dataset trop petit** : | + | Bien que ces limitations soient réelles, il existe des stratégies |
| - | * Le modèle n'a pas assez d' | + | |
| - | * **Solution** | + | |
| - | **Mauvaise qualité des données** : | + | ==== Au niveau |
| - | * Fautes, incohérences, | + | |
| - | * **Solution** : Validation rigoureuse | + | |
| - | **Ignorer le test set** : | + | ✅ **Utiliser des modèles appropriés à la tâche** : Ne pas toujours choisir le plus grand modèle |
| - | * Ne pas évaluer correctement les performances | + | |
| - | * **Solution** : Toujours garder un test set représentatif et l' | + | |
| - | **Mauvais équilibrage** : | + | ✅ **Combiner plusieurs modèles** : Ensemble learning avec plusieurs LLM |
| - | * Trop d' | + | |
| - | * **Solution** : Assurer une distribution équilibrée des cas d' | + | |
| - | ===== Fine-tuning vs autres approches ===== | + | ✅ **Monitoring continu** : Surveiller les performances et détecter le drift |
| - | ^ Critère ^ Prompt Engineering ^ RAG ^ Fine-tuning ^ | + | ==== Au niveau |
| - | | **Complexité** | Faible | Moyenne | Élevée | | + | |
| - | | **Coût** | Gratuit | Moyen (infrastructure) | Élevé (données + compute) | | + | |
| - | | **Temps | + | |
| - | | **Flexibilité** | Très flexible | Flexible | Rigide (nécessite réentraînement) | | + | |
| - | | **Performance** | Bonne | Très bonne | Excellente (sur tâche spécifique) | | + | |
| - | | **Maintenance** | Facile | Moyenne | Complexe | | + | |
| - | | **Données requises** | Aucune | Documents/ | + | |
| - | **Quand utiliser quoi ?** | + | ✅ **Prompt engineering avancé** : Chain-of-thought, |
| - | * **Prompt Engineering** : Toujours commencer par là | + | ✅ **RAG** : Ancrer les réponses dans des sources vérifiées |
| - | * **RAG** : Besoin d' | + | |
| - | * **Fine-tuning** : Style très spécifique, | + | |
| - | ===== Considérations éthiques et légales ===== | + | ✅ **Human-in-the-loop** : Supervision humaine pour les décisions critiques |
| - | ==== Propriété intellectuelle ==== | + | ✅ **Validation croisée** : Comparer les sorties de plusieurs modèles |
| - | * **Droits sur les données** : Assurez-vous d' | + | ==== Au niveau organisationnel ==== |
| - | * **Droits sur le modèle** : Vérifiez les licences (modèles propriétaires vs open-source) | + | |
| - | * **Usage commercial** : Certaines licences interdisent l' | + | |
| - | ==== Protection | + | ✅ **Formation |
| - | | + | ✅ **Processus de validation** : Ne jamais faire confiance aveuglément |
| - | * **Anonymisation** : Anonymisez les données sensibles avant fine-tuning | + | |
| - | * **Localisation** : Attention à où les données sont stockées (UE vs USA) | + | |
| - | ==== Biais et équité ==== | + | ✅ **Documentation** : Tracer les décisions |
| - | | + | ✅ **Audits réguliers** : Évaluer les performances et les biais |
| - | * **Représentativité** : Assurez-vous que votre dataset représente bien tous vos utilisateurs | + | |
| - | * **Tests d' | + | |
| ===== Ressources complémentaires ===== | ===== Ressources complémentaires ===== | ||
| - | **Documentation officielle** : | + | **Études et recherches** : |
| - | * [[https://platform.openai.com/docs/guides/ | + | * [[https://papers.ssrn.com/sol3/papers.cfm? |
| - | * [[https://docs.mistral.ai/capabilities/ | + | * [[https://the-decoder.com/gpt-4-architecture-datasets-costs-and-more-leaked/|GPT-4 Architecture, |
| - | * [[https:// | + | * [[https:// |
| - | **Tutoriels pratiques** : | + | **Coûts et impact** : |
| - | * [[https:// | + | * [[https:// |
| - | * [[https:// | + | * Impact environnemental des LLM |
| - | **Outils** : | + | **Interprétabilité** : |
| - | * [[https://github.com/Lightning-AI/lit-gpt|LitGPT]] - Fine-tuning open-source facile | + | * [[https://arxiv.org/abs/2302.00093|Rethinking Interpretability in the Era of Large Language Models]] |
| - | * [[https:// | + | * [[https://christophm.github.io/interpretable-ml-book/|Interpretable Machine Learning Book]] |
| - | * [[https:// | + | |
| - | **Datasets d' | + | **Drift et monitoring** : |
| - | * [[https://huggingface.co/datasets|Hugging Face Datasets]] | + | * [[https://huyenchip.com/2022/ |
| - | * [[https:// | + | * [[https:// |
| + | |||
| + | **Outils pratiques** : | ||
| + | * [[https:// | ||
| + | * [[https:// | ||
| + | * [[https://github.com/marcotcr/ | ||
| ===== Conclusion ===== | ===== Conclusion ===== | ||
| - | Le fine-tuning représente une technique puissante pour adapter les modèles de langage | + | Les grands |
| + | |||
| + | * **Utiliser les LLM de manière appropriée** : Choisir les bons cas d'usage | ||
| + | * **Éviter les risques** : Mettre | ||
| + | * **Optimiser les performances** : Combiner les LLM avec d'autres techniques (RAG, fine-tuning) | ||
| + | * **Maintenir la confiance** : Transparence | ||
| **Points clés à retenir** : | **Points clés à retenir** : | ||
| - | * Commencez toujours par le prompt engineering et le RAG avant d' | + | * Plus grand ne signifie pas forcément meilleur |
| - | * La qualité du dataset est critique : mieux vaut 100 excellents exemples que 1000 moyens | + | * L' |
| - | * Évaluez rigoureusement avec un test set représentatif | + | * Le drift est inévitable et doit être surveillé |
| - | * Considérez les coûts et la complexité de maintenance | + | * Les limitations contextuelles nécessitent une supervision humaine |
| - | * Assurez-vous d' | + | * Les considérations éthiques |
| - | Le fine-tuning n'est pas une solution miracle, mais utilisé correctement, | + | L'avenir des LLM passe par une meilleure compréhension et atténuation de ces limitations, avec des approches hybrides combinant IA et expertise humaine. |
ai/limitations.1760991396.txt.gz · Dernière modification : de admin
