Généralités
Enseignant | Pascal Amsili |
Code | LYST001, Ancien intitulé "Fouille de Textes" |
Lien iCampus | https://icampus.univ-paris3.fr/course/view.php?id=57562 |
Créneau | Vendredi 10h00-12h00, Campus Nation, salle B324. Premier cours: vendredi 27 septembre. |
Contenu | Partie "fondamentale" : sémantique distributionnelle, un peu d'algèbre linéaire (réduction de
dimensionalité, opérations sur les vecteurs...), et plongements lexicaux (de Word2vec à BERT) Partie "applicative" (selon temps) : tâches de sémantique computationnelle : résolution de coréférences, détection des inférences naturelles (RTE/NLI) |
Archives | Liens vers les pages des années précédentes: 2023-2024, 2022-2023, 2021-2022, 2020-2021 |
E.E.E. |
Evaluation des Enseignements par les Étudiants: il est possible dès maintenant, et autant de fois que vous le souhaitez, d'indiquer dans un questionnaire anonyme accessible ICI les points à améliorer (surtout) et les points positifs (éventuellement) de l'enseignement sur tous ses aspects:
|
Contrôles
La participation en classe compte pour 10%. Un mini-projet en groupe avec soutenance dont la note compte pour 40%. Date des soutenances : janvier 2025, à déterminer. |
|
Modalités (nouvelle version) |
• Trois TP au fil du semestre à rendre au bout de deux ou trois semaines. Les TP sont validés sur le
mode pass/fail et comptent ensemble pour 50% de la note.
• Un mini-projet en groupe dont la note compte pour 40%. • La participation en classe compte pour 10%. Les rendus de TP se font sous la forme d'un compte-rendu de 1 à 3 pages, comprenant une discussion des résultats observés. Les documents doivent être remis soit au format papier au début du cours du jour de la date limite, soit avant 23h59 le même jour sur iCampus. |
DM n°1 04/10→18/10 |
Simlex vs. distance lexicale À partir des données SimLex-999 téléchargeables ICI, choisir cinq paires de mots concrets ayant une distance supérieure à 9, et cinq paires ayant une distance inférieure à 2. Pour chacune de ces paires, relever les différentes mesures de distance lexicale disponibles dans l'implémentation nltk de wordnet. Il faut bien sûr préalablement installer nltk. Le résultat à produire est une table avec les 10 paires en ligne, et en colonne: la distance SimLex-999 et les valeurs obtenues pour les 3 mesures de similarité implémentées dans nltk (path/lch/wup). |
DM n°2 25/10→15/11 |
Influence de la taille du contexte Énoncé volontairement très ouvert. A partir d'un corpus assez grand, on va construire une représentation distributionnelle (statique) sous la forme d'une matrice terme-terme, et on va faire varier la taille de la fenêtre définissant le contexte de co-occurrence. La question qu'on va traiter à partir de ces différentes matrices est la suivante: est-ce que les similarités (cos) obtenues dans les différents espaces correspondent à différentes propriétés linguistiques ? |
DM n°3 22/11→13/12 |
Correction des biais Énoncé volontairement très ouvert. A partir d'un corpus assez grand, il s'agit de calculer des représentations distributionnelles de type GloVe, puis de chercher des cas de biais avec la méthode analogique (roi-homme+femme=?). Dans un second temps, en modifiant le corpus de départ (par exemple en supprimant les occurrences les plus biaisées, ou en ajoutant des phrases pour contrebalancer les biais), on vérifie en construisant une nouvelle matrice GloVe que le biais est impacté par le corpus d'apprentissage. |
Mini-projet →17/01 |
Etude de la polysémie avec des embeddings contextuels
A partir d'embeddings contextuels obtenus avec BERT pour un certain nombre d'occurrences de noms (ou de verbes) préalablement choisis, on définit un score de polysémie basé sur l'écart-type des similarités cosinus 2 à 2 des embeddings d'un même mot. L'objectif du projet est de déterminer à quel point ce score de polysémie correspond à la notion linguistique de polysémie. Pour cela, on pourra utiliser des visualisation 2D par réduction de dimensionalité pour confirmer les intuitions, mais on devra aussi corréler cette mesure avec une autre mesure de polysémie basée sur des ressources linguistiques ou à la rigueur sur des statistiques sur grand corpus. Le projet peut être réalisé en groupes de 1 à 3. On demande un bref rapport décrivant le travail accompli, les choix effectués et les difficultés rencontrées. Le travail doit être déposé sur iCampus au plus tard le 16 janvier 2025 (avant 23h59). Le travail fera l'objet d'une soutenance orale, organisée le 17 janvier 2025. Tous les membres du groupe doivent participer à l'exposé qui doit durer entre 12' (groupes ≤ 2) et 15' (groupes de 3). |
Résultats | notes (consignes) |
Séances
2024-09-27 | I. Sémantique Distributionnelle § 1. Sémantique lexicale |
|
2024-10-04 | § 1. Sémantique lexicale (suite) | exemplier n°1 ; exemplier n°3 |
2024-10-11 | § 1. Sémantique lexicale (suite) | |
2024-10-18 | § 1. Sémantique lexicale (suite)
§ 2. Hypothèse distributionnelle |
exemplier n°4 exemplier n°5 |
2024-10-25 | § 2. Hypothèse distributionnelle (suite) | exemplier n°6 |
2024-11-01 | Pas de séance (jour férié) | |
2024-11-08 | § 2. Hypothèse distributionnelle (fin) | |
2024-11-15 | § 3. Réduction de dimensionalité | |
2024-11-22 | § 3. Réduction de dimensionalité (suite) | |
2024-11-29 | § 3. Réduction de dimensionalité (fin)
§ 4. Plongements lexicaux |
|
2024-12-06 | § 4. Plongements lexicaux (suite) | |
2024-12-13 | § 4. Plongements lexicaux (fin) | |
2024-12-20 | II. Quelques tâches de sémantique computationnelle
Résolution de la co-référence ; inférence en langue naturelle |
Pointeurs en lien avec le cours
Ressources
- Dan Juravsky et James H. Martin, Speech and Language Processing (3rd edition, draft, 2024).
- Cours «Distributional Models for Lexical Semantics» offert par Denis Paperno en 2017.
- Une mine de ressources sur les statistiques, l'apprentissage
machine:
qui rassemble des poly, des notebooks, des TP en français sur beaucoup d'aspects des statistiques modernes.
- Ressources précieuses en français: diapos et supports sur le text mining proposés par Ricco Rakotomalala.
- Mohammad, Said M. (2019). State of NLP. Une série de posts sur medium qui examine l'état de la communauté des chercheurs en TAL, en particulier sur la base des publications accumulées dans l'anthologie de l'ACL.
Articles évoqués en cours (sélection)
- Kruszewski, G., Paperno, D., Bernardi, R., & Baroni, M. (2016). There is no logical negation here, but there are alternatives: Modeling conversational negation with distributional semantics. Computational Linguistics, 42(4), 637-660.
- Mohammad, S. M., Dorr, B. J., Hirst, G., & Turney, P. D. (2013). Computing lexical contrast. Computational Linguistics, 39(3), 555-590.
- Pierrejean, B & Tanguy, L. Étude de la reproductibilité des word embeddings : repérage des zones stables et instables dans le lexique. TALN, May 2018, Rennes, France. hal-01793370.
- Lu, C., Lu, C., Lange, R.T., Foerster, J.N., Clune, J., & Ha, D. (2024). The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery. ArXiv, abs/2408.06292.
Pointeurs généraux
- La revue scientifique (ephémère) « Linguistic Issues in Language Technologies » présente des travaux intéressants portant sur la relation entre linguistique et TAL. Le numéro spécial Interaction of Linguistics and Computationnal Linguistics, paru en 2011, contient un lot d'articles intéressants et toujours d'actualité en grande partie.
- L'ATALA publie depuis 1960 la revue TAL (Traitement Automatique des Langues), qui est en ligne et en accès libre depuis 2006. Si beaucoup d'articles comportent une certaine dimension technique, on trouve aussi des textes plus accessibles au non spécialiste, que ce soit des articles de synthèse ou des discussions.
- L'ATALA organise depuis 1994 la conférence TALN qui est un lieu de rencontre de la communauté (essentiellement francophone) du TAL. Les communications à ces conférences sont systématiquement sélectionnées et publiées sous formes d'articles courts de 6 à 12 pages, qui ne sont malheureusement pas encore rassemblés sur un site unique, mais qui sont assez facile à trouver, en particulier pour les dernières années, sur les sites respectifs de chaque édition.
- Conférences en TAL/NLP les plus importantes.