L’attestation des combinaisons lexicales à l’aide de la base de données textuelles FRANTEXT
Jacques François
La base de données textuelles FRANTEXT constitue un outil précieux pour mesurer la fréquence relative des occurrences d’’un item lexical par rapport au nombre de mots graphiques d’’un corpus délimité en termes d’’époque, de genre et éventuellement d’’auteur ou d’’œœuvre, et celle d’’un segment répété interprétable, c’’est-à-dire d’’une chaîne de mots graphiques autosuffisante incluant l’’item à l’’étude par rapport à la fréquence de ce dernier. Le Cahier a un objectif pratique : fournir une méthode d’’investigation des occurrences et des cooccurrences des items lexicaux dans différents corpus issus de la base FRANTEXT. Le chapitre I examine particulièrement les occurrences des items humanité et inhumanité dans l’’ensemble de la base au 20e siècle, le chapitre II examine les cooccurrents de l’’item conscience dans le même corpus et dans une œœuvre particulière et le chapitre III teste une hypothèse sur la variation des cooccurrents de l’’item mœœurs entre 1600 et 2000. La récurrence des segments repérés n’’implique pas nécessairement leur figement, mais atteste une certaine ‘‘information mutuelle’’. Le chapitre IV offre une ouverture vers la lexicométrie combinatoire, c’’est-à-dire l’’analyse statistique de cette information mutuelle en proposant une illustration élémentaire de la théorie des « collostructions » avec les syntagmes adjectivaux du type Adj de N<émotion> (ex. rouge de colère).