Généralités
Enseignant | Pascal Amsili |
Code | LYST001, Ancien intitulé "Fouille de Textes" |
Lien iCampus | https://icampus.univ-paris3.fr/course/view.php?id=13808 |
Créneau | Jeudi 14h30-16h30, salle |
Mode d'enseignement | Distanciel intégral: les séances ont lieu avec Zoom (lien sur iCampus); on utilisera aussi un salon textuel Discord (lien sur iCampus). Ces dispositions (ainsi que la plupart des informations affichées sur cette page) sont susceptibles de changer sans préavis. |
Contenu | Partie "fondamentale" : sémantique
distributionnelle, un peu d'algèbre linéaire
(réduction de dimensionalité, opérations sur les
vecteurs...), et plongements lexicaux (de Word2vec à
BERT)
Partie "applicative" : tâches de sémantique computationnelle : résolution de coréférences, détection des inférences naturelles (RTE/NLI) |
Contrôles
Modalités | Un TP commencé en séance et à rendre 2 semaines plus tard comptera pour |
||
TP | TP en séance: énoncé - à rendre (iCampus) le 8 novembre à minuit | ||
Fiche de lecture hors pluriTAL | Une fiche de lecture sur un article portant sur le TAL ou la sémantique computationnelle (100%).
On demande un texte de 5 à 10 pages, dactylographié, qui présente le
projet de l'article, sa thèse principale (ou ses principaux résultats), et les arguments
employés. Il est important que l'essai soit critique: la démarche critique ne consiste pas à
exprimer une opinion à propos du texte (ou de dire s'il nous a plu) mais à tenter de remettre en
question autant que possible les affirmations du texte en convoquant d'autres exemples ou d'autres
sources. Le travail doit être rendu au plus tard le
|
||
Mini-projet |
corpus Democrat à rendre (iCampus) le |
||
Résultats | notes (instructions) |
Séances
2020-10-01 | Ch1. Sémantique distributionnelle | section 2.3 : diapos empruntées à Jurafsky & Martin |
2020-10-08 | Ch1. Sémantique distributionnelle (suite) | Diapos de support |
2020-10-15 | Ch1. Sémantique distributionnelle (suite) | Diapos de support |
2020-10-22 | TP en séance | énoncé, corpus 1 (82 ktok), corpus 2 (236 ktok), |
2020-10-29 | Pas de séance | |
2020-11-05 | Séance sur discord: questions sur le TP. | |
2020-11-12 | Ch2. Réduction de dimensionalité. |
lien Zoom et slides sur iCampus |
2020-11-19 | Plongements lexicaux | lien Zoom sur iCampus. slides très inspirés du chapitre 6 du manuel de Jurafsky & Martin. |
2020-11-26 | Ch3. Anaphores et coréférences (Définition, difficultés) | exemplier |
2020-12-03 |
|
sur l'évaluation de la résolution de coréférence: • section 2.3 du mémoire de Q. Gliosca ; • scorch (implémentation des métriques courantes en coref) • section 2.4 de la thèse de L. Grobol |
2020-12-10 | Ch3. Anaphores et coréférences (Evaluation) | diapos |
2020-12-17 | Ch3. Anaphores et coréférences (Algorithmes) | tableau souvenir |
2020-12-24 | Pas de séance (vacances) | |
2020-12-31 | Pas de séance (vacances) | |
2021-01-07 |
Pointeurs
- Dan Juravsky et James H. Martin, Speech and Language Processing (3rd edition, draft, 2019).
- Cours «Distributional Models for Lexical Semantics» offert par Denis Paperno en 2017.
- Ressources précieuses en français: diapos et supports sur le text mining proposés par Ricco Rakotomalala.
Résolution de coreférences
Implémentations
- le résolveur déterministe (multi-pass sieve) de Stanford
- eXternally configurable REference and Non Named Entity Recognizer
- le résolveur de Berkeley
Articles scientifiques:
Merci de me contacter si les articles ne sont pas disponibles: j'en mettrai un exemplaire sur iCampus.- Historiques:
Hobbs, 1978 ; Lappin & Leass 1994 ; Mitkov 1998 ; - Mention-mention (local):
McCarthy & Lehnert 1995 ;
Soon et al 2001 ;
Ng & Cardie 2002 ;
Bengston & Roth 2008 ;
Denis & Balridge 2008 ;
Lee et al. 2017
Clark & Manning 2016 ; Wiseman et al 2015 ;
Mention-mention (global): Denis & Balridge 2009 ; Lassale & Denis 2015 - Entity Mention:
Luo et al. 2004 ;
Rahman & Ng 2011
Recasens & Hovy 2010 - Entity Entity:
Raghunathan et al. 2010
Lee et al. 2011 Clark & Manning 2015 Clark & Manning 2016