Différences

Ci-dessous, les différences entre deux révisions de la page.

--- ai:parcours_de_formation_pour_debuter [2025/10/20 21:43] – admin
+++ ai:parcours_de_formation_pour_debuter [2025/10/20 21:54] (Version actuelle) – admin
@@ Ligne 9: / Ligne 9: @@
 ==== Ressources recommandées (FR) ====
-  * **Introduction au Machine Learning** de l'Université de Montpellier sur FUN MOOC : ce cours couvre les concepts fondamentaux (régression linéaire, algorithmes de classification)
+  * [[https://www.fun-mooc.fr/|Introduction au Machine Learning]] de l'Université de Montpellier sur FUN MOOC : ce cours couvre les concepts fondamentaux (régression linéaire, algorithmes de classification)
-  * **Fondamentaux du Machine Learning** sur OpenClassrooms (accessible gratuitement) : présente les bases théoriques du ML et leurs applications
+  * [[https://openclassrooms.com/fr/courses/4011851-initiez-vous-au-machine-learning|Fondamentaux du Machine Learning]] sur OpenClassrooms (accessible gratuitement) : présente les bases théoriques du ML et leurs applications
-  * Ces cours vous aideront à appréhender les algorithmes classiques (régression linéaire/logistique, arbres de décision, k-NN) ainsi que l'utilisation de **scikit-learn**
+  * Ces cours vous aideront à appréhender les algorithmes classiques (régression linéaire/logistique, arbres de décision, k-NN) ainsi que l'utilisation de [[https://scikit-learn.org/|scikit-learn]]
 ==== Ressources recommandées (EN) ====
-  * **Machine Learning** de Andrew Ng (Coursera) : classique disponible en anglais (sous-titré), entièrement **gratuit en audit libre**
+  * [[https://www.coursera.org/learn/machine-learning|Machine Learning]] de Andrew Ng (Coursera) : classique disponible en anglais (sous-titré), entièrement **gratuit en audit libre**
-  * **Machine Learning Crash Course** de Google (15 heures, 12 modules, >100 exercices) : tutoriel interactif avec interface française abordant la création de modèles de régression et classification
+  * [[https://developers.google.com/machine-learning/crash-course|Machine Learning Crash Course]] de Google (15 heures, 12 modules, >100 exercices) : tutoriel interactif avec interface française abordant la création de modèles de régression et classification
-  * **Google Colab** : environnement cloud gratuit pour exécuter du code Python en ML
+  * [[https://colab.research.google.com/|Google Colab]] : environnement cloud gratuit pour exécuter du code Python en ML
 ==== Approche d'apprentissage ====
@@ Ligne 35: / Ligne 35: @@
 ==== Ressources recommandées (FR) ====
-  * **Machine Learning France** sur YouTube : tutoriel sur **scikit-learn appliqué au NLP** (présentation de TF-IDF)
+  * [[https://www.youtube.com/@machinelearningfr|Machine Learning France]] sur YouTube : tutoriel sur **scikit-learn appliqué au NLP** (présentation de TF-IDF)
-  * Supports de cours universitaires (Inria, ENS)
+  * Supports de cours universitaires ([[https://www.inria.fr/|Inria]], [[https://www.ens.psl.eu/|ENS]])
-  * Blog "Le TAL pour les nuls"
+  * Blog [[https://tal.hypotheses.org/|"Le TAL pour les nuls"]]
 ==== Ressources recommandées (EN) ====
-  * **"A Code-First Introduction to NLP"** de fast.ai (Rachel Thomas et Jeremy Howard) : cours gratuit (vidéos YouTube + notebooks Python) couvrant un large spectre, des méthodes NLP traditionnelles jusqu'aux réseaux de neurones pour le langage
+  * [[https://www.fast.ai/posts/2019-07-08-fastai-nlp.html|"A Code-First Introduction to NLP"]] de fast.ai (Rachel Thomas et Jeremy Howard) : cours gratuit (vidéos YouTube + notebooks Python) couvrant un large spectre, des méthodes NLP traditionnelles jusqu'aux réseaux de neurones pour le langage
-  * **"Natural Language Processing with Python"** (livre NLTK) : disponible gratuitement en ligne, introduit le NLP de façon très pratique avec la bibliothèque NLTK
+  * [[https://www.nltk.org/book/|"Natural Language Processing with Python"]] (livre NLTK) : disponible gratuitement en ligne, introduit le NLP de façon très pratique avec la bibliothèque NLTK
-  * **spaCy 101** : tutoriel officiel de spaCy pour débuter avec cette bibliothèque moderne de NLP
+  * [[https://spacy.io/usage/spacy-101|spaCy 101]] : tutoriel officiel de spaCy pour débuter avec cette bibliothèque moderne de NLP
 ==== Pratique ====
   * Créez un notebook où vous nettoyez un corpus de tweets, retirez les stopwords, et calculez les TF-IDF
-  * Construisez un classifieur de spam/ham avec un modèle naïve Bayes entraîné sur du texte vectorisé
+  * Construisez un classifieur de spam/ham avec un modèle naïve Bayes entraîné sur du texte vectorisé (utilisez le [[https://archive.ics.uci.edu/dataset/94/spambase|dataset Spambase]])
-  * Explorez les capacités de spaCy : tokenisation, POS tagging, reconnaissance d'entités nommées sur un texte français ou anglais
+  * Explorez les capacités de [[https://spacy.io/|spaCy]] : tokenisation, POS tagging, reconnaissance d'entités nommées sur un texte français ou anglais
+  * Téléchargez des [[https://www.nltk.org/data.html|corpus NLTK]] pour vous entraîner
 ===== Phase 3 : Modèles de Deep Learning pour le NLP (Semaines 9 à 12) =====
@@ Ligne 57: / Ligne 58: @@
 ==== Ressources recommandées (EN) ====
-  * **Deep Learning Specialization** de Andrew Ng (Coursera) : inclut un cours sur les réseaux récurrents et le NLP. Gratuit en audit.
+  * [[https://www.coursera.org/specializations/deep-learning|Deep Learning Specialization]] de Andrew Ng (Coursera) : inclut un cours sur les réseaux récurrents et le NLP. Gratuit en audit.
-  * **Sequence Models** (cours 5 de la spécialisation Deep Learning) : focus sur RNN, LSTM, attention, et embeddings
+  * [[https://www.coursera.org/learn/nlp-sequence-models|Sequence Models]] (cours 5 de la spécialisation Deep Learning) : focus sur RNN, LSTM, attention, et embeddings
-  * **TensorFlow / PyTorch tutorials** : tutoriels officiels pour construire des modèles RNN/LSTM sur du texte
+  * [[https://www.tensorflow.org/tutorials/text|TensorFlow]] / [[https://pytorch.org/tutorials/beginner/nlp_tutorial.html|PyTorch tutorials]] : tutoriels officiels pour construire des modèles RNN/LSTM sur du texte
 ==== Pratique ====
-  * Chargez des word embeddings pré-entraînés (word2vec ou GloVe) et explorez les voisins sémantiques de mots
+  * Chargez des word embeddings pré-entraînés ([[https://radimrehurek.com/gensim/models/word2vec.html|word2vec]] ou [[https://nlp.stanford.edu/projects/glove/|GloVe]]) et explorez les voisins sémantiques de mots
-  * Construisez un modèle LSTM simple pour la classification de sentiment (IMDB reviews)
+  * Construisez un modèle LSTM simple pour la classification de sentiment ([[https://huggingface.co/datasets/imdb|IMDB reviews]])
   * Testez différentes architectures (RNN vanilla vs LSTM vs GRU) et observez les différences de performance
+  * Utilisez [[https://www.kaggle.com/datasets|Kaggle Datasets]] pour trouver des corpus de texte variés
 ===== Phase 4 : Transformers et modèles pré-entraînés (Semaines 13 à 16) =====
@@ Ligne 73: / Ligne 75: @@
 ==== Ressources recommandées (EN) ====
-  * **Hugging Face NLP Course** : cours complet et gratuit couvrant les Transformers, le fine-tuning, et les applications pratiques
+  * [[https://huggingface.co/learn/nlp-course/|Hugging Face NLP Course]] : cours complet et gratuit couvrant les Transformers, le fine-tuning, et les applications pratiques
-  * **The Illustrated Transformer** (blog de Jay Alammar) : explication visuelle claire du fonctionnement des Transformers
+  * [[https://jalammar.github.io/illustrated-transformer/|The Illustrated Transformer]] (blog de Jay Alammar) : explication visuelle claire du fonctionnement des Transformers
-  * **Attention is All You Need** (papier original) : pour les plus curieux, lecture du papier fondateur
+  * [[https://arxiv.org/abs/1706.03762|Attention is All You Need]] (papier original) : pour les plus curieux, lecture du papier fondateur
 ==== Ressources recommandées (FR) ====
-  * **Cours sur les Transformers** : certains MOOC français commencent à intégrer cette architecture
+  * Certains MOOC français commencent à intégrer l'architecture Transformers
-  * Traductions et articles francophones sur le blog de Hugging Face
+  * [[https://huggingface.co/blog/fr|Blog Hugging Face en français]] : traductions et articles francophones
 ==== Pratique ====
-  * Utilisez la bibliothèque **transformers** de Hugging Face pour charger BERT et l'appliquer à une tâche de classification
+  * Utilisez la bibliothèque [[https://huggingface.co/docs/transformers/|transformers]] de Hugging Face pour charger BERT et l'appliquer à une tâche de classification
   * Fine-tunez un modèle pré-entraîné (DistilBERT) sur un dataset de votre choix
-  * Explorez le Hub Hugging Face : testez différents modèles sur des tâches variées (NER, QA, résumé)
+  * Explorez le [[https://huggingface.co/models|Hub Hugging Face]] : testez différents modèles sur des tâches variées (NER, QA, résumé)
 ===== Phase 5 : IA générative et LLM (Semaines 17 à 20) =====
@@ Ligne 94: / Ligne 96: @@
 ==== Ressources recommandées (EN) ====
-  * **DeepLearning.AI courses on Generative AI** : plusieurs cours courts gratuits sur le prompt engineering, l'utilisation des LLM, et leurs applications
+  * [[https://www.deeplearning.ai/short-courses/|DeepLearning.AI courses on Generative AI]] : plusieurs cours courts gratuits sur le prompt engineering, l'utilisation des LLM, et leurs applications
-  * **OpenAI Cookbook** : collection de notebooks et guides pratiques pour utiliser les APIs GPT
+  * [[https://cookbook.openai.com/|OpenAI Cookbook]] : collection de notebooks et guides pratiques pour utiliser les APIs GPT
-  * **LangChain documentation** : pour construire des applications complexes avec les LLM
+  * [[https://python.langchain.com/docs/introduction/|LangChain documentation]] : pour construire des applications complexes avec les LLM
 ==== Ressources recommandées (FR) ====
@@ Ligne 106: / Ligne 108: @@
   * Expérimentez avec différentes techniques de prompting (zero-shot, few-shot, chain-of-thought)
-  * Construisez un chatbot simple avec LangChain et un LLM
+  * Construisez un chatbot simple avec [[https://python.langchain.com/|LangChain]] et un LLM
   * Créez une application RAG (Retrieval-Augmented Generation) connectant un LLM à vos documents
+  * Explorez [[https://platform.openai.com/playground|OpenAI Playground]] ou [[https://chat.mistral.ai/|Mistral Chat]] pour tester des prompts
 ===== Phase 6 : Prompt Engineering avancé (Semaines 21 à 24) =====
@@ Ligne 124: / Ligne 127: @@
 ==== Ressources recommandées ====
-  * **Prompt Engineering Guide** : guide complet et gratuit sur toutes les techniques
+  * [[https://www.promptingguide.ai/|Prompt Engineering Guide]] : guide complet et gratuit sur toutes les techniques
-  * **OpenAI Prompt Engineering Guide** : meilleures pratiques officielles
+  * [[https://platform.openai.com/docs/guides/prompt-engineering|OpenAI Prompt Engineering Guide]] : meilleures pratiques officielles
-  * Cours et tutoriels sur le prompt engineering avancé
+  * [[https://learnprompting.org/|Learn Prompting]] : cours et tutoriels sur le prompt engineering avancé
 ==== Pratique ====
@@ Ligne 149: / Ligne 152: @@
 ==== Newsletters ====
-  * **The Batch** (DeepLearning.AI) : actualités IA hebdomadaires
+  * [[https://www.deeplearning.ai/the-batch/|The Batch]] (DeepLearning.AI) : actualités IA hebdomadaires
-  * **Import AI** (Jack Clark) : résumés de recherche en IA
+  * [[https://jack-clark.net/|Import AI]] (Jack Clark) : résumés de recherche en IA
-  * **NLP News** (Sebastian Ruder) : focus sur le NLP
+  * [[https://newsletter.ruder.io/|NLP News]] (Sebastian Ruder) : focus sur le NLP
 ==== Blogs et sites ====
-  * **Papers with Code** : dernières publications avec code
+  * [[https://paperswithcode.com/|Papers with Code]] : dernières publications avec code
-  * **Hugging Face Blog** : tutoriels et annonces
+  * [[https://huggingface.co/blog|Hugging Face Blog]] : tutoriels et annonces
-  * **Distill.pub** : articles de recherche visuels et pédagogiques
+  * [[https://distill.pub/|Distill.pub]] : articles de recherche visuels et pédagogiques
-  * **Jay Alammar's Blog** : explications illustrées de concepts IA
+  * [[https://jalammar.github.io/|Jay Alammar's Blog]] : explications illustrées de concepts IA
 ==== Podcasts ====
-  * **Lex Fridman Podcast** : interviews de chercheurs en IA
+  * [[https://lexfridman.com/podcast/|Lex Fridman Podcast]] : interviews de chercheurs en IA
-  * **The TWIML AI Podcast** : discussions techniques
+  * [[https://twimlai.com/|The TWIML AI Podcast]] : discussions techniques
-  * **Practical AI** : applications concrètes de l'IA
+  * [[https://changelog.com/practicalai|Practical AI]] : applications concrètes de l'IA
 ==== Conférences (en ligne) ====
-  * **NeurIPS, ICML, ACL** : conférences majeures avec présentations en ligne
+  * [[https://neurips.cc/|NeurIPS]], [[https://icml.cc/|ICML]], [[https://www.aclweb.org/|ACL]] : conférences majeures avec présentations en ligne
-  * **Hugging Face Community Events** : webinars réguliers
+  * [[https://huggingface.co/events|Hugging Face Community Events]] : webinars réguliers
 ===== Exemples de mini-projets pour consolider l'apprentissage =====
@@ Ligne 177: / Ligne 180: @@
 Entraînez un modèle pour prédire si des avis textuels sont positifs ou négatifs.
-**Données** : critiques de films (IMDB, Allociné)
+**Données** : [[https://huggingface.co/datasets/imdb|critiques de films IMDB]], [[https://www.kaggle.com/datasets/columbine/imdb-dataset-sentiment-analysis-in-csv-format|IMDB CSV]], [[https://www.rottentomatoes.com/|Rotten Tomatoes]]
 **Progression** :
   * Commencez par un modèle simple (Naive Bayes avec TF-IDF)
-  * Passez à un Transformer pré-entraîné (DistilBERT) fine-tuné
+  * Passez à un Transformer pré-entraîné ([[https://huggingface.co/distilbert-base-uncased|DistilBERT]]) fine-tuné
   * Comparez les performances
@@ Ligne 203: / Ligne 206: @@
 Découvrez les thèmes dominants dans un corpus de documents.
-**Méthode** : LDA (Latent Dirichlet Allocation)
+**Méthode** : [[https://radimrehurek.com/gensim/models/ldamodel.html|LDA (Latent Dirichlet Allocation)]] avec [[https://radimrehurek.com/gensim/|Gensim]]
-**Données** : articles de blog, nouvelles (idéalement en français)
+**Données** : articles de blog, [[https://www.kaggle.com/datasets/snapcrack/all-the-news|nouvelles]], corpus [[https://huggingface.co/datasets/cc_news|CC-News]]
 **Objectif** : explorer le NLP non supervisé et la visualisation de résultats
+**Outils** : [[https://github.com/bmabey/pyLDAvis|pyLDAvis]] pour visualiser les topics
 ==== 4. Extraction d'entités nommées sur des CV ====
@@ Ligne 219: / Ligne 224: @@
   * Expériences
-**Outils** : spaCy avec modèles pré-entraînés + règles personnalisées
+**Outils** : [[https://spacy.io/|spaCy]] avec modèles pré-entraînés + règles personnalisées
+**Ressources** :
+  * [[https://spacy.io/usage/training|Entraîner un modèle NER personnalisé]]
+  * [[https://github.com/explosion/projects|Projets spaCy]] pour exemples
 **Objectif** : mettre en œuvre la NER et adapter un modèle à un domaine spécifique
@@ Ligne 228: / Ligne 237: @@
 **Outils** :
-  * Modèle de traduction du Hub Hugging Face
+  * [[https://huggingface.co/Helsinki-NLP|Modèles de traduction Helsinki-NLP]] du Hub Hugging Face
-  * Interface Streamlit ou Gradio
+  * Interface [[https://streamlit.io/|Streamlit]] ou [[https://gradio.app/|Gradio]]
 **Progression** :
-  * Commencez avec une paire de langues courante (EN→FR)
+  * Commencez avec une paire de langues courante (EN→FR) : [[https://huggingface.co/Helsinki-NLP/opus-mt-en-fr|opus-mt-en-fr]]
   * Testez une paire moins courante (IT→EN)
   * Observez les limites
 **Objectif** : déployer un modèle encodeur-décodeur
+**Tutoriel** : [[https://huggingface.co/docs/transformers/tasks/translation|Translation task guide]]
 ==== 6. Question-Réponse sur mesure ====
@@ Ligne 242: / Ligne 253: @@
 Entraînez votre propre système de questions-réponses.
-**Données** : articles Wikipedia + dataset QA (SQuAD, FQuAD)
+**Données** : articles Wikipedia + datasets QA :
+  * [[https://rajpurkar.github.io/SQuAD-explorer/|SQuAD]] (anglais)
+  * [[https://fquad.illuin.tech/|FQuAD]] (français)
+  * [[https://huggingface.co/datasets/piaf|PIAF]] (français)
 **Approches** :
-  * Utilisez un modèle pré-entraîné de QA
+  * Utilisez un [[https://huggingface.co/models?pipeline_tag=question-answering|modèle pré-entraîné de QA]]
-  * Fine-tunez BERT sur vos données
+  * Fine-tunez [[https://huggingface.co/bert-base-uncased|BERT]] sur vos données
   * Évaluez les performances
+**Tutoriel** : [[https://huggingface.co/docs/transformers/tasks/question_answering|Question Answering guide]]
 **Objectif** : appliquer le fine-tuning sur une tâche précise
@@ Ligne 256: / Ligne 272: @@
 **Exemple** :
-  * Compilez les œuvres d'un auteur du 19e siècle (domaine public)
+  * Compilez les œuvres d'un auteur du 19e siècle ([[https://www.gutenberg.org/|Project Gutenberg]] - domaine public)
-  * Fine-tunez GPT-2 pour imiter le style
+  * Fine-tunez [[https://huggingface.co/gpt2|GPT-2]] pour imiter le style
   * Générez du texte et analysez les résultats
+**Outils** :
+  * [[https://huggingface.co/docs/transformers/training|Hugging Face Training guide]]
+  * [[https://github.com/minimaxir/gpt-2-simple|gpt-2-simple]] pour entraînement simplifié
 **Questions à explorer** :