Outils pour utilisateurs

Outils du site


ai:parcours_de_formation_pour_debuter

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentesRévision précédente
ai:parcours_de_formation_pour_debuter [2025/10/20 21:43] adminai:parcours_de_formation_pour_debuter [2025/10/20 21:54] (Version actuelle) admin
Ligne 9: Ligne 9:
 ==== Ressources recommandées (FR) ==== ==== Ressources recommandées (FR) ====
  
-  * **Introduction au Machine Learning** de l'Université de Montpellier sur FUN MOOC : ce cours couvre les concepts fondamentaux (régression linéaire, algorithmes de classification) +  * [[https://www.fun-mooc.fr/|Introduction au Machine Learning]] de l'Université de Montpellier sur FUN MOOC : ce cours couvre les concepts fondamentaux (régression linéaire, algorithmes de classification) 
-  * **Fondamentaux du Machine Learning** sur OpenClassrooms (accessible gratuitement) : présente les bases théoriques du ML et leurs applications +  * [[https://openclassrooms.com/fr/courses/4011851-initiez-vous-au-machine-learning|Fondamentaux du Machine Learning]] sur OpenClassrooms (accessible gratuitement) : présente les bases théoriques du ML et leurs applications 
-  * Ces cours vous aideront à appréhender les algorithmes classiques (régression linéaire/logistique, arbres de décision, k-NN) ainsi que l'utilisation de **scikit-learn**+  * Ces cours vous aideront à appréhender les algorithmes classiques (régression linéaire/logistique, arbres de décision, k-NN) ainsi que l'utilisation de [[https://scikit-learn.org/|scikit-learn]]
  
 ==== Ressources recommandées (EN) ==== ==== Ressources recommandées (EN) ====
  
-  * **Machine Learning** de Andrew Ng (Coursera) : classique disponible en anglais (sous-titré), entièrement **gratuit en audit libre** +  * [[https://www.coursera.org/learn/machine-learning|Machine Learning]] de Andrew Ng (Coursera) : classique disponible en anglais (sous-titré), entièrement **gratuit en audit libre** 
-  * **Machine Learning Crash Course** de Google (15 heures, 12 modules, >100 exercices) : tutoriel interactif avec interface française abordant la création de modèles de régression et classification +  * [[https://developers.google.com/machine-learning/crash-course|Machine Learning Crash Course]] de Google (15 heures, 12 modules, >100 exercices) : tutoriel interactif avec interface française abordant la création de modèles de régression et classification 
-  * **Google Colab** : environnement cloud gratuit pour exécuter du code Python en ML+  * [[https://colab.research.google.com/|Google Colab]] : environnement cloud gratuit pour exécuter du code Python en ML
  
 ==== Approche d'apprentissage ==== ==== Approche d'apprentissage ====
Ligne 35: Ligne 35:
 ==== Ressources recommandées (FR) ==== ==== Ressources recommandées (FR) ====
  
-  * **Machine Learning France** sur YouTube : tutoriel sur **scikit-learn appliqué au NLP** (présentation de TF-IDF) +  * [[https://www.youtube.com/@machinelearningfr|Machine Learning France]] sur YouTube : tutoriel sur **scikit-learn appliqué au NLP** (présentation de TF-IDF) 
-  * Supports de cours universitaires (Inria, ENS) +  * Supports de cours universitaires ([[https://www.inria.fr/|Inria]][[https://www.ens.psl.eu/|ENS]]
-  * Blog "Le TAL pour les nuls"+  * Blog [[https://tal.hypotheses.org/|"Le TAL pour les nuls"]]
  
 ==== Ressources recommandées (EN) ==== ==== Ressources recommandées (EN) ====
  
-  * **"A Code-First Introduction to NLP"** de fast.ai (Rachel Thomas et Jeremy Howard) : cours gratuit (vidéos YouTube + notebooks Python) couvrant un large spectre, des méthodes NLP traditionnelles jusqu'aux réseaux de neurones pour le langage +  * [[https://www.fast.ai/posts/2019-07-08-fastai-nlp.html|"A Code-First Introduction to NLP"]] de fast.ai (Rachel Thomas et Jeremy Howard) : cours gratuit (vidéos YouTube + notebooks Python) couvrant un large spectre, des méthodes NLP traditionnelles jusqu'aux réseaux de neurones pour le langage 
-  * **"Natural Language Processing with Python"** (livre NLTK) : disponible gratuitement en ligne, introduit le NLP de façon très pratique avec la bibliothèque NLTK +  * [[https://www.nltk.org/book/|"Natural Language Processing with Python"]] (livre NLTK) : disponible gratuitement en ligne, introduit le NLP de façon très pratique avec la bibliothèque NLTK 
-  * **spaCy 101** : tutoriel officiel de spaCy pour débuter avec cette bibliothèque moderne de NLP+  * [[https://spacy.io/usage/spacy-101|spaCy 101]] : tutoriel officiel de spaCy pour débuter avec cette bibliothèque moderne de NLP
  
 ==== Pratique ==== ==== Pratique ====
  
   * Créez un notebook où vous nettoyez un corpus de tweets, retirez les stopwords, et calculez les TF-IDF   * Créez un notebook où vous nettoyez un corpus de tweets, retirez les stopwords, et calculez les TF-IDF
-  * Construisez un classifieur de spam/ham avec un modèle naïve Bayes entraîné sur du texte vectorisé +  * Construisez un classifieur de spam/ham avec un modèle naïve Bayes entraîné sur du texte vectorisé (utilisez le [[https://archive.ics.uci.edu/dataset/94/spambase|dataset Spambase]]) 
-  * Explorez les capacités de spaCy : tokenisation, POS tagging, reconnaissance d'entités nommées sur un texte français ou anglais+  * Explorez les capacités de [[https://spacy.io/|spaCy]] : tokenisation, POS tagging, reconnaissance d'entités nommées sur un texte français ou anglais 
 +  * Téléchargez des [[https://www.nltk.org/data.html|corpus NLTK]] pour vous entraîner
  
 ===== Phase 3 : Modèles de Deep Learning pour le NLP (Semaines 9 à 12) ===== ===== Phase 3 : Modèles de Deep Learning pour le NLP (Semaines 9 à 12) =====
Ligne 57: Ligne 58:
 ==== Ressources recommandées (EN) ==== ==== Ressources recommandées (EN) ====
  
-  * **Deep Learning Specialization** de Andrew Ng (Coursera) : inclut un cours sur les réseaux récurrents et le NLP. Gratuit en audit. +  * [[https://www.coursera.org/specializations/deep-learning|Deep Learning Specialization]] de Andrew Ng (Coursera) : inclut un cours sur les réseaux récurrents et le NLP. Gratuit en audit. 
-  * **Sequence Models** (cours 5 de la spécialisation Deep Learning) : focus sur RNN, LSTM, attention, et embeddings +  * [[https://www.coursera.org/learn/nlp-sequence-models|Sequence Models]] (cours 5 de la spécialisation Deep Learning) : focus sur RNN, LSTM, attention, et embeddings 
-  * **TensorFlow / PyTorch tutorials** : tutoriels officiels pour construire des modèles RNN/LSTM sur du texte+  * [[https://www.tensorflow.org/tutorials/text|TensorFlow]] [[https://pytorch.org/tutorials/beginner/nlp_tutorial.html|PyTorch tutorials]] : tutoriels officiels pour construire des modèles RNN/LSTM sur du texte
  
 ==== Pratique ==== ==== Pratique ====
  
-  * Chargez des word embeddings pré-entraînés (word2vec ou GloVe) et explorez les voisins sémantiques de mots +  * Chargez des word embeddings pré-entraînés ([[https://radimrehurek.com/gensim/models/word2vec.html|word2vec]] ou [[https://nlp.stanford.edu/projects/glove/|GloVe]]) et explorez les voisins sémantiques de mots 
-  * Construisez un modèle LSTM simple pour la classification de sentiment (IMDB reviews)+  * Construisez un modèle LSTM simple pour la classification de sentiment ([[https://huggingface.co/datasets/imdb|IMDB reviews]])
   * Testez différentes architectures (RNN vanilla vs LSTM vs GRU) et observez les différences de performance   * Testez différentes architectures (RNN vanilla vs LSTM vs GRU) et observez les différences de performance
 +  * Utilisez [[https://www.kaggle.com/datasets|Kaggle Datasets]] pour trouver des corpus de texte variés
  
 ===== Phase 4 : Transformers et modèles pré-entraînés (Semaines 13 à 16) ===== ===== Phase 4 : Transformers et modèles pré-entraînés (Semaines 13 à 16) =====
Ligne 73: Ligne 75:
 ==== Ressources recommandées (EN) ==== ==== Ressources recommandées (EN) ====
  
-  * **Hugging Face NLP Course** : cours complet et gratuit couvrant les Transformers, le fine-tuning, et les applications pratiques +  * [[https://huggingface.co/learn/nlp-course/|Hugging Face NLP Course]] : cours complet et gratuit couvrant les Transformers, le fine-tuning, et les applications pratiques 
-  * **The Illustrated Transformer** (blog de Jay Alammar) : explication visuelle claire du fonctionnement des Transformers +  * [[https://jalammar.github.io/illustrated-transformer/|The Illustrated Transformer]] (blog de Jay Alammar) : explication visuelle claire du fonctionnement des Transformers 
-  * **Attention is All You Need** (papier original) : pour les plus curieux, lecture du papier fondateur+  * [[https://arxiv.org/abs/1706.03762|Attention is All You Need]] (papier original) : pour les plus curieux, lecture du papier fondateur
  
 ==== Ressources recommandées (FR) ==== ==== Ressources recommandées (FR) ====
  
-  * **Cours sur les Transformers** : certains MOOC français commencent à intégrer cette architecture +  * Certains MOOC français commencent à intégrer l'architecture Transformers 
-  * Traductions et articles francophones sur le blog de Hugging Face+  * [[https://huggingface.co/blog/fr|Blog Hugging Face en français]] : traductions et articles francophones
  
 ==== Pratique ==== ==== Pratique ====
  
-  * Utilisez la bibliothèque **transformers** de Hugging Face pour charger BERT et l'appliquer à une tâche de classification+  * Utilisez la bibliothèque [[https://huggingface.co/docs/transformers/|transformers]] de Hugging Face pour charger BERT et l'appliquer à une tâche de classification
   * Fine-tunez un modèle pré-entraîné (DistilBERT) sur un dataset de votre choix   * Fine-tunez un modèle pré-entraîné (DistilBERT) sur un dataset de votre choix
-  * Explorez le Hub Hugging Face : testez différents modèles sur des tâches variées (NER, QA, résumé)+  * Explorez le [[https://huggingface.co/models|Hub Hugging Face]] : testez différents modèles sur des tâches variées (NER, QA, résumé)
  
 ===== Phase 5 : IA générative et LLM (Semaines 17 à 20) ===== ===== Phase 5 : IA générative et LLM (Semaines 17 à 20) =====
Ligne 94: Ligne 96:
 ==== Ressources recommandées (EN) ==== ==== Ressources recommandées (EN) ====
  
-  * **DeepLearning.AI courses on Generative AI** : plusieurs cours courts gratuits sur le prompt engineering, l'utilisation des LLM, et leurs applications +  * [[https://www.deeplearning.ai/short-courses/|DeepLearning.AI courses on Generative AI]] : plusieurs cours courts gratuits sur le prompt engineering, l'utilisation des LLM, et leurs applications 
-  * **OpenAI Cookbook** : collection de notebooks et guides pratiques pour utiliser les APIs GPT +  * [[https://cookbook.openai.com/|OpenAI Cookbook]] : collection de notebooks et guides pratiques pour utiliser les APIs GPT 
-  * **LangChain documentation** : pour construire des applications complexes avec les LLM+  * [[https://python.langchain.com/docs/introduction/|LangChain documentation]] : pour construire des applications complexes avec les LLM
  
 ==== Ressources recommandées (FR) ==== ==== Ressources recommandées (FR) ====
Ligne 106: Ligne 108:
  
   * Expérimentez avec différentes techniques de prompting (zero-shot, few-shot, chain-of-thought)   * Expérimentez avec différentes techniques de prompting (zero-shot, few-shot, chain-of-thought)
-  * Construisez un chatbot simple avec LangChain et un LLM+  * Construisez un chatbot simple avec [[https://python.langchain.com/|LangChain]] et un LLM
   * Créez une application RAG (Retrieval-Augmented Generation) connectant un LLM à vos documents   * Créez une application RAG (Retrieval-Augmented Generation) connectant un LLM à vos documents
 +  * Explorez [[https://platform.openai.com/playground|OpenAI Playground]] ou [[https://chat.mistral.ai/|Mistral Chat]] pour tester des prompts
  
 ===== Phase 6 : Prompt Engineering avancé (Semaines 21 à 24) ===== ===== Phase 6 : Prompt Engineering avancé (Semaines 21 à 24) =====
Ligne 124: Ligne 127:
 ==== Ressources recommandées ==== ==== Ressources recommandées ====
  
-  * **Prompt Engineering Guide** : guide complet et gratuit sur toutes les techniques +  * [[https://www.promptingguide.ai/|Prompt Engineering Guide]] : guide complet et gratuit sur toutes les techniques 
-  * **OpenAI Prompt Engineering Guide** : meilleures pratiques officielles +  * [[https://platform.openai.com/docs/guides/prompt-engineering|OpenAI Prompt Engineering Guide]] : meilleures pratiques officielles 
-  * Cours et tutoriels sur le prompt engineering avancé+  * [[https://learnprompting.org/|Learn Prompting]] : cours et tutoriels sur le prompt engineering avancé
  
 ==== Pratique ==== ==== Pratique ====
Ligne 149: Ligne 152:
 ==== Newsletters ==== ==== Newsletters ====
  
-  * **The Batch** (DeepLearning.AI) : actualités IA hebdomadaires +  * [[https://www.deeplearning.ai/the-batch/|The Batch]] (DeepLearning.AI) : actualités IA hebdomadaires 
-  * **Import AI** (Jack Clark) : résumés de recherche en IA +  * [[https://jack-clark.net/|Import AI]] (Jack Clark) : résumés de recherche en IA 
-  * **NLP News** (Sebastian Ruder) : focus sur le NLP+  * [[https://newsletter.ruder.io/|NLP News]] (Sebastian Ruder) : focus sur le NLP
  
 ==== Blogs et sites ==== ==== Blogs et sites ====
  
-  * **Papers with Code** : dernières publications avec code +  * [[https://paperswithcode.com/|Papers with Code]] : dernières publications avec code 
-  * **Hugging Face Blog** : tutoriels et annonces +  * [[https://huggingface.co/blog|Hugging Face Blog]] : tutoriels et annonces 
-  * **Distill.pub** : articles de recherche visuels et pédagogiques +  * [[https://distill.pub/|Distill.pub]] : articles de recherche visuels et pédagogiques 
-  * **Jay Alammar's Blog** : explications illustrées de concepts IA+  * [[https://jalammar.github.io/|Jay Alammar's Blog]] : explications illustrées de concepts IA
  
 ==== Podcasts ==== ==== Podcasts ====
  
-  * **Lex Fridman Podcast** : interviews de chercheurs en IA +  * [[https://lexfridman.com/podcast/|Lex Fridman Podcast]] : interviews de chercheurs en IA 
-  * **The TWIML AI Podcast** : discussions techniques +  * [[https://twimlai.com/|The TWIML AI Podcast]] : discussions techniques 
-  * **Practical AI** : applications concrètes de l'IA+  * [[https://changelog.com/practicalai|Practical AI]] : applications concrètes de l'IA
  
 ==== Conférences (en ligne) ==== ==== Conférences (en ligne) ====
  
-  * **NeurIPS, ICML, ACL** : conférences majeures avec présentations en ligne +  * [[https://neurips.cc/|NeurIPS]][[https://icml.cc/|ICML]][[https://www.aclweb.org/|ACL]] : conférences majeures avec présentations en ligne 
-  * **Hugging Face Community Events** : webinars réguliers+  * [[https://huggingface.co/events|Hugging Face Community Events]] : webinars réguliers
  
 ===== Exemples de mini-projets pour consolider l'apprentissage ===== ===== Exemples de mini-projets pour consolider l'apprentissage =====
Ligne 177: Ligne 180:
 Entraînez un modèle pour prédire si des avis textuels sont positifs ou négatifs. Entraînez un modèle pour prédire si des avis textuels sont positifs ou négatifs.
  
-**Données** : critiques de films (IMDB, Allociné)+**Données** : [[https://huggingface.co/datasets/imdb|critiques de films IMDB]][[https://www.kaggle.com/datasets/columbine/imdb-dataset-sentiment-analysis-in-csv-format|IMDB CSV]], [[https://www.rottentomatoes.com/|Rotten Tomatoes]]
  
 **Progression** : **Progression** :
   * Commencez par un modèle simple (Naive Bayes avec TF-IDF)   * Commencez par un modèle simple (Naive Bayes avec TF-IDF)
-  * Passez à un Transformer pré-entraîné (DistilBERT) fine-tuné+  * Passez à un Transformer pré-entraîné ([[https://huggingface.co/distilbert-base-uncased|DistilBERT]]) fine-tuné
   * Comparez les performances   * Comparez les performances
  
Ligne 203: Ligne 206:
 Découvrez les thèmes dominants dans un corpus de documents. Découvrez les thèmes dominants dans un corpus de documents.
  
-**Méthode** : LDA (Latent Dirichlet Allocation)+**Méthode** : [[https://radimrehurek.com/gensim/models/ldamodel.html|LDA (Latent Dirichlet Allocation)]] avec [[https://radimrehurek.com/gensim/|Gensim]]
  
-**Données** : articles de blog, nouvelles (idéalement en français)+**Données** : articles de blog, [[https://www.kaggle.com/datasets/snapcrack/all-the-news|nouvelles]], corpus [[https://huggingface.co/datasets/cc_news|CC-News]]
  
 **Objectif** : explorer le NLP non supervisé et la visualisation de résultats **Objectif** : explorer le NLP non supervisé et la visualisation de résultats
 +
 +**Outils** : [[https://github.com/bmabey/pyLDAvis|pyLDAvis]] pour visualiser les topics
  
 ==== 4. Extraction d'entités nommées sur des CV ==== ==== 4. Extraction d'entités nommées sur des CV ====
Ligne 219: Ligne 224:
   * Expériences   * Expériences
  
-**Outils** : spaCy avec modèles pré-entraînés + règles personnalisées+**Outils** : [[https://spacy.io/|spaCy]] avec modèles pré-entraînés + règles personnalisées 
 + 
 +**Ressources** : 
 +  * [[https://spacy.io/usage/training|Entraîner un modèle NER personnalisé]] 
 +  * [[https://github.com/explosion/projects|Projets spaCy]] pour exemples
  
 **Objectif** : mettre en œuvre la NER et adapter un modèle à un domaine spécifique **Objectif** : mettre en œuvre la NER et adapter un modèle à un domaine spécifique
Ligne 228: Ligne 237:
  
 **Outils** : **Outils** :
-  * Modèle de traduction du Hub Hugging Face +  * [[https://huggingface.co/Helsinki-NLP|Modèles de traduction Helsinki-NLP]] du Hub Hugging Face 
-  * Interface Streamlit ou Gradio+  * Interface [[https://streamlit.io/|Streamlit]] ou [[https://gradio.app/|Gradio]]
  
 **Progression** : **Progression** :
-  * Commencez avec une paire de langues courante (EN→FR)+  * Commencez avec une paire de langues courante (EN→FR) : [[https://huggingface.co/Helsinki-NLP/opus-mt-en-fr|opus-mt-en-fr]]
   * Testez une paire moins courante (IT→EN)   * Testez une paire moins courante (IT→EN)
   * Observez les limites   * Observez les limites
  
 **Objectif** : déployer un modèle encodeur-décodeur **Objectif** : déployer un modèle encodeur-décodeur
 +
 +**Tutoriel** : [[https://huggingface.co/docs/transformers/tasks/translation|Translation task guide]]
  
 ==== 6. Question-Réponse sur mesure ==== ==== 6. Question-Réponse sur mesure ====
Ligne 242: Ligne 253:
 Entraînez votre propre système de questions-réponses. Entraînez votre propre système de questions-réponses.
  
-**Données** : articles Wikipedia + dataset QA (SQuADFQuAD)+**Données** : articles Wikipedia + datasets QA 
 +  * [[https://rajpurkar.github.io/SQuAD-explorer/|SQuAD]] (anglais) 
 +  * [[https://fquad.illuin.tech/|FQuAD]] (français) 
 +  * [[https://huggingface.co/datasets/piaf|PIAF]] (français)
  
 **Approches** : **Approches** :
-  * Utilisez un modèle pré-entraîné de QA +  * Utilisez un [[https://huggingface.co/models?pipeline_tag=question-answering|modèle pré-entraîné de QA]] 
-  * Fine-tunez BERT sur vos données+  * Fine-tunez [[https://huggingface.co/bert-base-uncased|BERT]] sur vos données
   * Évaluez les performances   * Évaluez les performances
 +
 +**Tutoriel** : [[https://huggingface.co/docs/transformers/tasks/question_answering|Question Answering guide]]
  
 **Objectif** : appliquer le fine-tuning sur une tâche précise **Objectif** : appliquer le fine-tuning sur une tâche précise
Ligne 256: Ligne 272:
  
 **Exemple** : **Exemple** :
-  * Compilez les œuvres d'un auteur du 19e siècle (domaine public) +  * Compilez les œuvres d'un auteur du 19e siècle ([[https://www.gutenberg.org/|Project Gutenberg]] - domaine public) 
-  * Fine-tunez GPT-2 pour imiter le style+  * Fine-tunez [[https://huggingface.co/gpt2|GPT-2]] pour imiter le style
   * Générez du texte et analysez les résultats   * Générez du texte et analysez les résultats
 +
 +**Outils** :
 +  * [[https://huggingface.co/docs/transformers/training|Hugging Face Training guide]]
 +  * [[https://github.com/minimaxir/gpt-2-simple|gpt-2-simple]] pour entraînement simplifié
  
 **Questions à explorer** : **Questions à explorer** :
ai/parcours_de_formation_pour_debuter.1760989412.txt.gz · Dernière modification : de admin