Généralités

CM mardi, 8h-10h, Amyot A4. Premier CM le 02 septembre
TD jeudi, 10h15-12h15, Amyot A4. Premier TD le 04 septembre
Enseignants Pascal Amsili, Jean Barré, Mathieu Dehouck
Moodle https://moodle.psl.eu/course/view.php?id=29195
Contenu
  • Introduction à la discipline du traitement automatique des langues (TAL), qui se concentre sur la manipulation informatique du langage humain (texte, parole), avec des méthodes symboliques (formelles) mais surtout statistiques et neuronales.
  • Présentation des outils élaborés pour le traitement des données textuelles (segmentation, étiquetage, analyse syntaxique), et des méthodes utilisées pour les tâches courantes dans le domaine (traduction automatique, recherche d'information, résumé automatique...).
  • Introduction aux études littéraires computationnelles, discipline récente qui s'est construite avec la disponibilité de vastes corpus numérisés (BNF, HathiTrust...) et des méthodes d'IA performantes.
  • Utilisation des méthodes du TAL pour l'opérationalisation des concepts de la théorie littéraire, ce qui donne la possibilité de mener des études empiriques à large échelle.
Voir aussi le syllabus.
Liens Autre lien vers le planning
Lien vers données github
Archives Lien vers la page de l'année précédente

Contrôles

Modalités 1e session: Une épreuve de TP notée (sur deux séances consécutives) comptant pour 25%, un mini-projet donnant lieu à une présentation orale (30%), et une épreuve écrite en temps limité (sans documents) comptant pour 45%.
Calendrier 1e session: semaine 5: lancement du mini-projet,
semaine 12: soutenances du mini-projet,
semaine 14: TP noté,
semaine 15 (créneau TP): examen écrit.

Manipulations (travaux pratiques)

Ce tableau donne accès aux énoncés, ressources et code uniquement pour les TP dont je (P. Amsili) suis responsable; ils sont aussi accessibles en principe sur le github du cours, et ne sont placés ici que pour des raisons d'accessibilité et d'archivage.
N-grammes (sem 3) Énoncé
Corpus d'apprentissage : latin1, utf-8
Corpus plus grand du même auteur
Corpus différent (Vernes)
Corrigé 1e question
Corrigé 2e question
Corrigé 3e question
Taille de la fenêtre (sem 6) Énoncé
Corpus d'apprentissage : latin1, utf-8
Corpus plus grand du même auteur
Corpus différent (Vernes)
Corrigé
Analogie dans les embeddings (sem 8) Énoncé
Corrigé
Perceptron (sem 10) Énoncé à venir

Planning

No Cours Date Salle Intervenant Thème
1CMMardi 02/09/25Amyot A4 Jean BarréIntroduction aux études littéraires computationnelles
1TDJeudi 04/09/25Amyot A4 Jean BarréSac de mots
2CMMardi 09/09/25Amyot A4 Mathieu DehouckIntroduction au TAL
2TDJeudi 11/09/25Amyot A4 Mathieu DehouckDonnées annotées; POS-tagging par règles
3CMMardi 16/09/25Amyot A4 Pascal AmsiliModèles de langue simples
3TDJeudi 18/09/25Amyot A4 Pascal AmsiliProgrammation d'un modèle n-gramme
4CMMardi 23/09/25Amyot A4 Jean BarréDistance entre documents (plongement de textes)
4TDJeudi 25/09/25Amyot A4 Jean BarréDistances entre documents (Prétraitement regexp)
5CMMardi 30/09/25Amyot A4 Jean BarréIdentification des personnages, coréférence
5TDJeudi 02/10/25Amyot A4 Jean BarréAttributs de personnages (+présentation DM)
6CMMardi 07/10/25Amyot A4 Pascal AmsiliHypothèse distributionnelle
6TDJeudi 09/10/25Amyot A4 Pascal AmsiliParamètres des embeddings distributionnels
7CMMardi 14/10/25Amyot A4 Mathieu DehouckRéduction de dimensionalité
7TDJeudi 16/10/25Amyot A4 Mathieu DehouckReprésentation de textes et de caractères
8CMMardi 21/10/25Amyot A4 Pascal AmsiliEmbeddings statiques: Word2vec
8TDJeudi 23/10/25Amyot A4 Pascal AmsiliAnalogie avec des embeddings
--Mardi 28/10/25Congés-----
--Jeudi 30/10/25Congés-----
9CMMardi 04/11/25Amyot A4 Jean BarréClassification supervisée (regression, SVM)
9TDJeudi 06/11/25Amyot A4 Jean BarréGenres textuels et classification
10CMMardi 11/11/25Férié -----
10TDJeudi 13/11/25Amyot A4 Pascal AmsiliPerceptron
11CMMardi 18/11/25Amyot A4 Mathieu DehouckRéseaux de neuronnes
11TDJeudi 20/11/25Amyot A4 Mathieu DehouckIdentification de langue
CMMardi 25/11/25Amyot A4 Mathieu DehouckAttention et architecture transformer (BERT)
TDJeudi 27/11/25Replacement de cours
12CMMardi 02/12/25Amyot A4 Mathieu DehouckTokenisation, BPE
12TDJeudi 04/12/25Amyot A4 Jean BarréOraux devoir maison
13CMMardi 09/12/25Amyot A4 Mathieu DehouckTP Noté (1)
13TDJeudi 11/12/25Amyot A4 Mathieu DehouckTP Noté (2)
14CMMardi 16/12/25Amyot A4 Pascal AmsiliGrands modèles de langue
14TDJeudi 18/12/25Amyot A4 Jean BarréAnnotation et LLM
--Mardi 23/12/25Congés-----
--Jeudi 35/12/25Congés-----
--Mardi 30/10/25Congés-----
--Jeudi 01/01/26Congés-----
--Mardi 06/01/26--Replacement de cours
--Jeudi 08/01/26--Replacement de cours
15CMMardi 13/01/26Amyot A4 Pascal AmsiliApprentissage non supervisé
15TDJeudi 15/01/26Amyot A4 Pascal AmsiliExamen

Pointeurs (références, bibliographie, ressources en ligne)

Bibliographie

  • Daniel Jurafsky and James H. Martin. 2025. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition with Language Models, 3rd edition. Online manuscript released August 24, 2025. https://web.stanford.edu/~jurafsky/slp3.
    Chapitres les plus pertinents :
    • 2 (Words and Tokens)
    • 3 (N-gram Language Models) → semaine 3 (modèles de langue simples)
    • 4 (Logistic Regression and Text Classification)
    • 5 (Embeddings) → semaine 6 (Hypothèse distributionnelle)
    • 6 (Neural Networks)
    • 7 (Large Language Models)
    • 13 (RNNs and LSTMs) → semaine 14 (Grands modèles de langue)
    • A (Hidden Markov Models) → semaine 3 (modèles de langue simples)
    • J (PPMI) → semaine 6 (Hypothèse distributionnelle)

Ressources pour s'entraîner ou se perfectionner en programmation

  • Pour vous initier seul(e) à l'informatique et à la programmation, en français, n'hésitez pas à vous inscrire sur l'excellent site http://www.france-ioi.org/
  • La plateforme openclassrooms offre des moocs de différents niveaux pour s'initier à la programmation, je suggère en particulier ce cours de bases d'algorithmique.
  • Plus facile, presque enfantin: le cours découvrir la programmation créative, qui utilise la plateforme scratch que vous pouvez d'ailleurs utiliser directement (surtout si vous avez aimé turtle...).
  • Un peu plus flashy, mais toujours pertinent pour l'auto-formation: CodinGame. Des exercices de difficultés croissantes pour s'entraîner dans de nombreux langages de programmation; un grand forum d'échange et des miliers d'exemples.
  • Il y a aussi des cours complets sur la plateforme FUN, très pertinents, comme par exemple ce cours de python.
  • Pour des défis plus austères, mais un excellent entraînement à l'algorithmique et à la programmation, vous pouvez relever le défi du projet Euler (en anglais).