CRISCO

Conférence CRISCO "Les modèles de sémantique distributionnelle peuvent-ils aider à détecter et interpréter les expressions polylexicales à partir de grands corpus ?

Guillaume DESAGULIER (Paris 8 - UMR 7114 moDyCo)


Les vecteurs lexicaux ont-ils leur place en linguistique de corpus ?

Deux modèles de sémantique distributionnelle fondés sur l’apprentissage profond et les réseaux neuronaux ont récemment suscité l’intérêt des linguistes : word2vec (Mikolov, Chen, et al. 2013 ; Mikolov, Yih, et al. 2013) et GloVe (Pennington et al. 2014). Sur la base d’un apprentissage réalisé sur de très grands corpus, ces algorithmes parviennent à générer des représentations lexicales distribuées de grande qualité. Ces représentations prennent la forme de vecteurs.

J’évalue dans quelle mesure les vecteurs lexicaux issus de l’intelligence artificielle peuvent se substituer aux formes traditionnelles d’annotation sémantique de jeux de données de grande taille. Je propose une étude de cas centrée sur l’annotation d’adjectifs dans des corpus de l’anglais. Je compare l’annotation vectorielle à l’annotation manuelle et semi-automatique.

Bien que les vecteurs lexicaux permettent de résoudre certains problèmes d’annotation sémantique à l’échelle du mot, leur utilisation est bien plus problématique à l’échelle des expressions pluri-lexicales. J’aborde deux problèmes sémantiques, i.e. la polysémie et la non-compositionnalité, et je propose des pistes pour leurs résolutions.

La présentation s’appuie sur une publication à paraître dans le courant de l’année 2018 : https://halshs.archives-ouvertes.fr/halshs-01657591/document


Enveloppe