Généralités
| CM | mardi, 8h-10h, Amyot A4. Premier CM le 02 septembre |
| TD | jeudi, 10h15-12h15, Amyot A4. Premier TD le 04 septembre |
| Enseignants | Pascal Amsili, Jean Barré, Mathieu Dehouck |
| Moodle | https://moodle.psl.eu/course/view.php?id=29195 |
| Contenu |
|
| Liens |
Autre lien vers le planning
Lien vers données github |
| Archives | Lien vers la page de l'année précédente |
Contrôles
| Modalités | 1e session: Une épreuve de TP notée (sur deux séances consécutives) comptant pour 25%, un mini-projet donnant lieu à une présentation orale (30%), et une épreuve écrite en temps limité (sans documents) comptant pour 45%. |
| Calendrier |
1e session:
semaine 5: lancement du mini-projet,
semaine 12: soutenances du mini-projet, semaine 14: TP noté, semaine 15 (créneau TP): examen écrit. |
Manipulations (travaux pratiques)
| Ce tableau donne accès aux énoncés, ressources et code uniquement pour les TP dont je (P. Amsili) suis responsable; ils sont aussi accessibles en principe sur le github du cours, et ne sont placés ici que pour des raisons d'accessibilité et d'archivage. | |
| N-grammes (sem 3) |
Énoncé
Corpus d'apprentissage : latin1, utf-8 Corpus plus grand du même auteur Corpus différent (Vernes) Corrigé 1e question Corrigé 2e question Corrigé 3e question |
| Taille de la fenêtre (sem 6) |
Énoncé
Corpus d'apprentissage : latin1, utf-8 Corpus plus grand du même auteur Corpus différent (Vernes) Corrigé |
| Analogie dans les embeddings (sem 8) |
Énoncé
Corrigé |
| Perceptron (sem 10) | Énoncé à venir |
Planning
| No | Cours | Date | Salle | Intervenant | Thème |
|---|---|---|---|---|---|
| 1 | CM | Mardi 02/09/25 | Amyot A4 | Jean Barré | Introduction aux études littéraires computationnelles |
| 1 | TD | Jeudi 04/09/25 | Amyot A4 | Jean Barré | Sac de mots |
| 2 | CM | Mardi 09/09/25 | Amyot A4 | Mathieu Dehouck | Introduction au TAL |
| 2 | TD | Jeudi 11/09/25 | Amyot A4 | Mathieu Dehouck | Données annotées; POS-tagging par règles |
| 3 | CM | Mardi 16/09/25 | Amyot A4 | Pascal Amsili | Modèles de langue simples |
| 3 | TD | Jeudi 18/09/25 | Amyot A4 | Pascal Amsili | Programmation d'un modèle n-gramme |
| 4 | CM | Mardi 23/09/25 | Amyot A4 | Jean Barré | Distance entre documents (plongement de textes) |
| 4 | TD | Jeudi 25/09/25 | Amyot A4 | Jean Barré | Distances entre documents (Prétraitement regexp) |
| 5 | CM | Mardi 30/09/25 | Amyot A4 | Jean Barré | Identification des personnages, coréférence |
| 5 | TD | Jeudi 02/10/25 | Amyot A4 | Jean Barré | Attributs de personnages (+présentation DM) |
| 6 | CM | Mardi 07/10/25 | Amyot A4 | Pascal Amsili | Hypothèse distributionnelle |
| 6 | TD | Jeudi 09/10/25 | Amyot A4 | Pascal Amsili | Paramètres des embeddings distributionnels |
| 7 | CM | Mardi 14/10/25 | Amyot A4 | Mathieu Dehouck | Réduction de dimensionalité |
| 7 | TD | Jeudi 16/10/25 | Amyot A4 | Mathieu Dehouck | Représentation de textes et de caractères |
| 8 | CM | Mardi 21/10/25 | Amyot A4 | Pascal Amsili | Embeddings statiques: Word2vec |
| 8 | TD | Jeudi 23/10/25 | Amyot A4 | Pascal Amsili | Analogie avec des embeddings |
| -- | Mardi 28/10/25 | Congés | --- | -- | |
| -- | Jeudi 30/10/25 | Congés | --- | -- | |
| 9 | CM | Mardi 04/11/25 | Amyot A4 | Jean Barré | Classification supervisée (regression, SVM) |
| 9 | TD | Jeudi 06/11/25 | Amyot A4 | Jean Barré | Genres textuels et classification |
| 10 | CM | Mardi 11/11/25 | Férié | --- | -- |
| 10 | TD | Jeudi 13/11/25 | Amyot A4 | Pascal Amsili | Perceptron |
| 11 | CM | Mardi 18/11/25 | Amyot A4 | Mathieu Dehouck | Réseaux de neuronnes |
| 11 | TD | Jeudi 20/11/25 | Amyot A4 | Mathieu Dehouck | Identification de langue |
| CM | Mardi 25/11/25 | Amyot A4 | Mathieu Dehouck | Attention et architecture transformer (BERT) | |
| TD | Jeudi 27/11/25 | Replacement de cours | |||
| 12 | CM | Mardi 02/12/25 | Amyot A4 | Mathieu Dehouck | Tokenisation, BPE |
| 12 | TD | Jeudi 04/12/25 | Amyot A4 | Jean Barré | Oraux devoir maison |
| 13 | CM | Mardi 09/12/25 | Amyot A4 | Mathieu Dehouck | TP Noté (1) |
| 13 | TD | Jeudi 11/12/25 | Amyot A4 | Mathieu Dehouck | TP Noté (2) |
| 14 | CM | Mardi 16/12/25 | Amyot A4 | Pascal Amsili | Grands modèles de langue |
| 14 | TD | Jeudi 18/12/25 | Amyot A4 | Jean Barré | Annotation et LLM |
| -- | Mardi 23/12/25 | Congés | --- | -- | |
| -- | Jeudi 35/12/25 | Congés | --- | -- | |
| -- | Mardi 30/10/25 | Congés | --- | -- | |
| -- | Jeudi 01/01/26 | Congés | --- | -- | |
| -- | Mardi 06/01/26 | -- | Replacement de cours | ||
| -- | Jeudi 08/01/26 | -- | Replacement de cours | ||
| 15 | CM | Mardi 13/01/26 | Amyot A4 | Pascal Amsili | Apprentissage non supervisé |
| 15 | TD | Jeudi 15/01/26 | Amyot A4 | Pascal Amsili | Examen |
Pointeurs (références, bibliographie, ressources en ligne)
Bibliographie
- Daniel Jurafsky and James H. Martin. 2025. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition with Language Models, 3rd edition. Online manuscript released August 24, 2025. https://web.stanford.edu/~jurafsky/slp3.
Chapitres les plus pertinents :- 2 (Words and Tokens)
- 3 (N-gram Language Models) → semaine 3 (modèles de langue simples)
- 4 (Logistic Regression and Text Classification)
- 5 (Embeddings) → semaine 6 (Hypothèse distributionnelle)
- 6 (Neural Networks)
- 7 (Large Language Models)
- 13 (RNNs and LSTMs) → semaine 14 (Grands modèles de langue)
- A (Hidden Markov Models) → semaine 3 (modèles de langue simples)
- J (PPMI) → semaine 6 (Hypothèse distributionnelle)
Ressources pour s'entraîner ou se perfectionner en programmation
- Pour vous initier seul(e) à l'informatique et à la programmation, en français, n'hésitez pas à vous inscrire sur l'excellent site http://www.france-ioi.org/
- La plateforme openclassrooms offre des moocs de différents niveaux pour s'initier à la programmation, je suggère en particulier ce cours de bases d'algorithmique.
- Plus facile, presque enfantin: le cours découvrir la programmation créative, qui utilise la plateforme scratch que vous pouvez d'ailleurs utiliser directement (surtout si vous avez aimé turtle...).
- Un peu plus flashy, mais toujours pertinent pour l'auto-formation: CodinGame. Des exercices de difficultés croissantes pour s'entraîner dans de nombreux langages de programmation; un grand forum d'échange et des miliers d'exemples.
- Il y a aussi des cours complets sur la plateforme FUN, très pertinents, comme par exemple ce cours de python.
- Pour des défis plus austères, mais un excellent entraînement à l'algorithmique et à la programmation, vous pouvez relever le défi du projet Euler (en anglais).



