CRISCO

Dictionnaire Electronique des Synonymes (DES)

Présentation du DES


  1. Introduction
    Le Dictionnaire Electronique des Synonymes du CRISCO (DES) contient aujourd’hui 49 157 entrées et 201 874 relations synonymiques réciproques. La base de départ a été constituée à partir de sept dictionnaires classiques. Un premier travail, réalisé par l’Institut National de la Langue Française, a permis d’en extraire les relations synonymiques sous forme électronique. Le laboratoire ELSAP, qui est devenu par la suite le CRISCO, a ensuite regroupé, homogénéisé et symétrisé les données. Depuis, un important travail de correction se perpétue par l’adjonction ou la suppression de liens synonymiques.
    Bref historique du DES

  2. Le principe du DES
    Le DES est un ensemble de mots et de liens ou relations de synonymie entre ces mots, quelles que soient les nuances d’emploi régissant ces relations. Autrement dit, les liens sont neutres et ont tous la même valeur.
    Le DES est symétrique : cela signifie que si un mot est synonyme d’un autre, la réciproque est vraie. En d’autres termes, les liens ne sont pas orientés. Cette propriété découle de la définition de la synonymie en tant que substituabilité en contexte.

  3. La nouvelle présentation du DES
    Cette nouvelle présentation est compatible avec les normes HTML actuelles. Elle s’intègre graphiquement au site du CRISCO, dans un environnement volontairement sobre. Une liste déroulante "couleur" propose quelques choix de tailles et de couleurs, notamment celles de l’ancienne version.
    Au-delà de sa présentation, c’est toute la structure du DES qui a été modifiée. Celui-ci est maintenant codé sous la forme d’une base de données SQL, chargée en mémoire vive par le programme serveur afin de pouvoir répondre instantanément à toutes les requêtes. La mise à jour de la base de données est automatiquement répercutée sur le résultat des requêtes, sans interruption du service.
    Pour les inconditionnels de l’ancienne version, celle-ci restera encore en service pour une durée indéterminée.

  4. Le lien vers le TLFi
    Le DES propose une définition du mot recherché à l’aide d’un lien vers le TLFi, ressource libre elle aussi.
    Le lien sur "définition" reste sur le même onglet, il suffit de revenir en arrière pour retrouver le DES. Le lien sur le logo du CNRTL ouvre un nouvel onglet si l’on désire conserver la page de définition. Pour éviter la multiplication des onglets, le nouvel onglet reste le même lors des différentes recherches de définitions. Si l’on souhaite mettre en parallèle plusieurs onglets de définitions, il est possible d’ajouter un onglet supplémentaire en appuyant sur la touche Ctrl au moment d’activer le lien.

  5. Les cliques
    Une clique est un ensemble maximal de mots tous synonymes entre eux.
    L’intérêt des cliques est qu’elles représentent en principe des unités de sens, plus proches des concepts que les mots, car elles neutralisent partiellement la polysémie de ceux-ci, ne retenant idéalement qu’un sens donné, commun à tous les mots de chaque clique.
    Les cliques permettent de situer des mots inconnus ou peu connus de l’utilisateur dans des unités de sens plus faciles à appréhender.
    Des cliques voisines, qui ne diffèrent parfois que par un mot, peuvent présenter des nuances très fines. Certaines cliques sont tellement voisines que leur nuance n’apparaît pas pertinente, dans ce cas, elles suggèrent des liens oubliés entre les mots qui les différencient. C’est une des méthodes utilisées pour compléter le DES.

  6. L’ordre des synonymes
    Les premiers synonymes sont classés par ordre de score, censé représenter la proximité avec la vedette. Le score calculé pour chaque synonyme est le taux de cliques de la vedette auxquelles il appartient. Les premiers synonymes sont donc par principe ceux qui partagent le plus de sens élémentaires avec la vedette.

  7. La visualisation de l’espace sémantique
    L’espace sémantique à n dimensions est projeté sur un plan. Les cliques sont représentées par des points et les mots par des ensembles de points (les cliques auxquelles le mot appartient). Il est possible de modifier les axes de projection, afin de différencier les sens qui se trouveraient projetés trop près l’un de l’autre.
    Attention : d’une part, le programme de visualisation demande l’installation de Java. D’autre part, ce programme travaille actuellement sur un état figé du DES. Ce programme devra être entièrement revu pour prendre en compte les mises à jour sans interruption du service. De plus, pour des raisons techniques, la possibilité d’imprimer est actuellement invalide ; il faut donc provisoirement afficher la visualisation en plein écran et utiliser la fonction Imprimer écran de votre ordinateur.

  8. La réforme orthographique de 1990
    Cette réforme orthographique a fait son entrée dans le DES en avril 2012. Pour l’heure, nous avons fait passer 79 formes nouvelles du statut de variante orthographique à celui de forme de référence. Il s’agit des plus populaires : principalement modifications é en è, ajout d’accents sur quelques e, régularisation d’exceptions.
    Voir article et liste des formes traitées

  9. L’absence de catégories grammaticales
    Il serait intéressant de différencier les catégories grammaticales pour mieux regrouper les synonymes. Mais la réalisation de cette opération n’est pas simple : si les verbes sont assez faciles à séparer des autres catégories, (synonymes de boucher par exemple), la distinction adjectif / substantif est beaucoup plus délicate. Les risques d’erreurs sont importants. D’une part, un très bon catégoriseur est nécessaire pour effectuer la majorité du travail automatiquement : un oubli (une catégorie peu probable par exemple) risque de casser des liens synonymiques pourtant réels. D’autre part de nombreux problèmes peuvent surgir, notamment lorsque deux synonymes sont à la fois nom et adjectif, ce qui est très fréquent : par exemple, faible (nom) est synonyme de penchant (nom), faible (adjectif) est synonyme de réduit (adjectif), mais faible (adjectif) n’est pas synonyme de penchant (adjectif) et faible (nom) n’est pas synonyme de réduit (nom). Quel traitement automatique peut le deviner ? Chaque cas doit donc être étudié et validé manuellement. Et ce n’est qu’un exemple du travail de titan qui est nécessaire avant de mettre en ligne cette fonctionnalité.
    Pour l’heure, notre parti pris est de fournir un maximum de synonymes et de laisser à l’utilisateur le soin d’effectuer le tri.

  10. Comment le DES est-il mis à jour ?
    L’évolution du DES se fait de deux manières :
    - D’une part grâce à la collaboration des utilisateurs, facilitée aujourd’hui par une interface de proposition. Les suggestions représentent jusqu’ici un peu plus de 100 liens par an, auxquels s’ajoutent par déduction environ 400 liens. L’interface de proposition devrait augmenter sensiblement ces chiffres. Les suggestions de lien sont acceptées à 95 % en moyenne. Les suggestions de suppression de lien – en petit nombre – sont souvent refusées, car correspondant généralement à l’oubli d’un sens par l’utilisateur.
    - D’autre part à partir du graphe du DES par un programme de calcul des liens manquants probables, basé sur une évaluation de la proximité sémantique (liée au taux de synonymes partagés par chaque paire de candidats). Une liste ordonnée est produite, commençant par les liens manquants les plus probables. Chaque suggestion est ensuite étudiée et validée ou non selon des critères lexicographiques. Les premiers liens probables calculés par programme donnent un excellent résultat : 562 liens synonymiques et 19 liens antonymiques validés sur un total de 691 liens proposés, soit 84,1 % de succès.

    De notre côté, nous avons retiré un nombre significatif de liens correspondant essentiellement à des doublons (singulier/pluriel, masculin/féminin, se + verbe, en + verbe, s’en + verbe, verbe + préposition). Nous détaillerons ultérieurement cette question épineuse des doublons que nous appelons effet millefeuille.

    - En 2012, 437 liens synonymiques et 75 liens antonymiques ont été ajoutés, 90 liens synonymiques et 2 liens antonymiques ont été retirés, soit 604 corrections, grâce aux propositions des utilisateurs et aux déductions.
    - En 2013, 810 liens synonymiques et 44 liens antonymiques ont été ajoutés, 167 liens synonymiques et 3 liens antonymiques ont été retirés, soit 1024 corrections, grâce au cumul des propositions d’utilisateurs et des calculs sur le graphe.

    A plus long terme, nous essaierons d’exploiter des ressources externes (textes récents, web) afin d’en extraire automatiquement des suggestions de mots nouveaux ou d’acceptions nouvelles. Par exemple : valoriser, retraiter, etc.

  11. Nous contacter
    Pour vos questions ou suggestions, vous pouvez contacter le webmestre. Afin d’éviter un engorgement de notre boîte à lettres, nous vous conseillons, avant toute suggestion, de bien réfléchir et de consulter des dictionnaires, notamment le Trésor de la Langue Française informatisé (TLFi), très riche et libre d’accès, et d’utiliser prioritairement l’interface de proposition lorsque celle-ci est adaptée à votre demande.
    Si nous ne pouvons pas répondre individuellement, nous essaierons de répondre collectivement dans cette rubrique.

Mis à jour le 05/03/2014


Enveloppe