Archive 2019

Validation	CC+examen
Enseignant	Marie Candito, Benoit Crabbé, Ewan Dunbar
Horaires hebdomadaires	2 h CM
Années	M2 Data Science (ouverture 2020)

Syllabus

Familiarisation avec les principales méthodes du traitement automatique des langues (TAL)
Appliquer des notions d'apprentissage à la modélisation du langage. Cas de l'apprentissage structuré (séquences et arbres)
Présentation / utilisation des principales librairies incluant des modules de TAL prêts à l'emploi (Spacy, NLTK)
Présentation / utilisation de librairies génériques d'apprentissage profond pour le TAL (pytorch)

Sommaire

Linguistique 101
Segmentation du texte, notion de mot, lexique, entités nommées
Représentations sémantiques lexicales et sémantique distributionnelle
Etiquetage morphosyntaxique
Modélisation de séquences de mots
Analyse syntaxique automatique de la langue naturelle
Traduction automatique
Quelques application à l'analyse textuelle (résumé, analyse de sentiment, anaphore, cartographie de texte, ...)

Bibliographie

Eisenstein, J. (2019). Natural Language Processing. MIT Press.
Jurafsky, D., and Martin, J. (2019), Speech and Language Processing. Pearson.
Russel, R. and Norvig, P. (2016). Artificial Intelligence: A Modern Approach. Pearson.