CRISCO

Dictionnaire Electronique des Synonymes (DES)

Présentation du DES


  1. Introduction
    Le Dictionnaire Electronique des Synonymes du CRISCO (DES) contient aujourd’hui 49 309 entrées et 203 695 relations synonymiques réciproques. La base de départ a été constituée à partir de sept dictionnaires classiques. Un premier travail, réalisé par l’INALF (Institut National de la Langue Française), a permis d’en extraire les relations synonymiques sous forme numérique. Le laboratoire ELSAP, qui est devenu par la suite le CRISCO, a ensuite concaténé, homogénéisé et symétrisé les données. Depuis 1994, un important travail de correction se perpétue par l’adjonction ou la suppression de liens synonymiques.
    Bref historique du DES

  2. Le principe du DES
    Le DES est un ensemble de mots et de liens ou relations de synonymie entre ces mots, quelles que soient les nuances d’emploi régissant ces relations. Autrement dit, les liens sont neutres et ont tous la même valeur.
    Le DES est symétrique : cela signifie que si un mot est synonyme d’un autre, la réciproque est vraie. En d’autres termes, les liens ne sont pas orientés. Cette propriété découle de la définition de la synonymie en tant que substituabilité en contexte.

  3. La nouvelle présentation du DES
    Cette nouvelle présentation est compatible avec les normes HTML actuelles. Elle s’intègre graphiquement au site du CRISCO, dans un environnement volontairement sobre. Une liste déroulante propose quelques choix de tailles et de couleurs, notamment celles de l’ancienne version.
    Au-delà de sa présentation, c’est toute la structure du DES qui a été modifiée. Celui-ci est maintenant codé sous la forme d’une base de données SQL, chargée en mémoire vive par le programme serveur afin de pouvoir répondre instantanément à toutes les requêtes. La mise à jour de la base de données est automatiquement répercutée sur le résultat des requêtes, sans interruption du service.
    Pour les inconditionnels de l’ancienne version, celle-ci restera encore en service pour une durée indéterminée.

  4. Le lien vers le TLFi
    Le DES propose une définition du mot recherché à l’aide d’un lien vers le TLFi, ressource librement consultable elle aussi.
    Le lien sur "définition" reste sur le même onglet, il suffit de revenir en arrière pour retrouver le DES. Le lien sur le logo du CNRTL crée un nouvel onglet, qui reste le même ensuite.

  5. Les cliques
    Une clique - terme emprunté à la théorie des graphes - est un ensemble maximal de mots tous synonymes entre eux.
    L’intérêt des cliques est qu’elles sont plus proches des concepts que les mots, car elles neutralisent partiellement la polysémie de ceux-ci, ne retenant idéalement qu’un sens donné, commun à tous les mots de la clique.
    Les cliques permettent de situer des mots inconnus ou peu connus de l’utilisateur dans des unités de sens plus faciles à appréhender.
    Des cliques voisines, qui ne diffèrent parfois que par un mot, peuvent présenter des nuances très fines. Certaines cliques sont tellement voisines que leur nuance n’apparaît pas pertinente, dans ce cas, elles suggèrent des liens oubliés entre les mots qui les différencient. C’est une des méthodes utilisées pour compléter le DES.

  6. L’ordre des synonymes
    Les premiers synonymes sont classés par ordre de score, censé représenter la proximité avec la vedette. Le score calculé pour chaque synonyme est le taux de cliques de la vedette auxquelles il appartient. Les premiers synonymes sont donc par principe ceux qui partagent le plus de sens élémentaires avec la vedette.

  7. La visualisation de l’espace sémantique
    L’espace sémantique à n dimensions est projeté sur un plan. Les cliques sont représentées par des points et les mots par des ensembles de points (les cliques auxquelles le mot appartient). Il est possible de modifier les axes de projection, afin de différencier les sens qui se trouveraient projetés trop près l’un de l’autre.
    Attention : d’une part, le programme de visualisation demande l’installation de Java. D’autre part, ce programme travaille actuellement sur un état figé du DES. Ce programme devra être entièrement revu pour prendre en compte les mises à jour sans interruption du service. De plus, pour des raisons techniques, la possibilité d’imprimer est actuellement invalide ; il faut donc provisoirement afficher la visualisation en plein écran et utiliser la fonction Imprimer écran de votre ordinateur.
    Si vos paramètres de sécurité interdisent l’exécution de l’applet Java, il faut lancer le panneau de configuration Java (sous Windows : démarrer/programmes/Java/configurer Java), onglet sécurité/Liste des sites avec exception/Modifier la liste des sites/
    http://www.crisco.unicaen.fr/

  8. Les rectifications orthographiques de 1990
    Ces rectifications ont fait leur entrée dans le DES en avril 2012. Pour l’heure, nous avons fait passer 79 formes du statut de variante orthographique à celui de forme de référence. Il s’agit des plus populaires : principalement modifications é en è, ajout d’accents sur quelques e, régularisation d’exceptions.
    Voir article et liste des formes traitées

  9. L’absence de catégories grammaticales
    Il serait intéressant de différencier les catégories grammaticales pour mieux regrouper les synonymes. Mais la réalisation de cette opération n’est pas simple : si les verbes sont assez faciles à séparer des autres catégories, (synonymes de boucher par exemple), la distinction adjectif / substantif est beaucoup plus délicate. Les risques d’erreurs sont importants. D’une part, un très bon catégoriseur est nécessaire pour effectuer la majorité du travail automatiquement : un oubli (une catégorie peu probable par exemple) risque de casser des liens synonymiques pourtant réels. D’autre part de nombreux problèmes peuvent surgir, notamment lorsque deux synonymes sont à la fois nom et adjectif, ce qui est très fréquent : par exemple, faible (nom) est synonyme de penchant (nom), faible (adjectif) est synonyme de réduit (adjectif), mais faible (adjectif) n’est pas synonyme de penchant (adjectif) et faible (nom) n’est pas synonyme de réduit (nom). Quel traitement automatique peut le deviner ? Chaque cas doit donc être étudié et validé manuellement. Et ce n’est qu’un exemple du travail de titan qui est nécessaire avant de mettre en ligne cette fonctionnalité.
    Pour l’heure, notre parti pris est de fournir un maximum de synonymes et de laisser à l’utilisateur le soin d’effectuer le tri.

  10. Comment le DES est-il mis à jour ?
    L’évolution du DES se fait de deux manières :
    - D’une part grâce à la collaboration des utilisateurs, facilitée aujourd’hui par une interface de proposition. Avant sa mise en service, les suggestions représentaient un peu plus de 100 liens par an, auxquels s’ajoutaient par déduction environ 300 liens. L’interface de proposition a nettement augmenté ces chiffres. Ne pouvant suivre, nous avons limité provisoirement à 50 par mois le nombre de propositions déposées. Cette limite étant atteinte entre le cinquième et le quinzième jour selon la période, nous essaierons d’obtenir davantage de moyens humains pour éviter cette limitation. La facilité d’utilisation de cette interface a eu pour conséquence négative une diminution du taux de propositions retenues, à 66 % contre 95 % avant sa mise en service. Malgré cette réduction du score, si l’on tient compte des liens déduits, l’interface de proposition nous permet d’ajouter environ 600 liens par an, potentiellement plus de 2000 si la limitation était levée. Les suggestions de suppression de lien – en petit nombre – sont plus rarement acceptées, car correspondant souvent à l’oubli d’un sens par l’utilisateur.
    - D’autre part à partir du graphe du DES par un programme de calcul des liens manquants probables, basé sur une évaluation de la proximité sémantique (liée au taux de synonymes partagés par chaque paire de candidats). Une liste ordonnée est produite, commençant par les liens manquants les plus probables. Chaque suggestion est ensuite étudiée et validée ou non selon des critères lexicographiques. Les liens probables calculés par programme donnent un excellent résultat avec plus de 80 % de succès.

Le bilan des mises à jour des deux dernières années est le suivant :

Syno ajoutés prop.Anto ajoutés prop.Syno retirés prop.Anto retirés prop.Total modif. prop.Syno ajoutés grapheAnto ajoutés grapheSyno retirés grapheAnto retirés grapheTotal modif. graphe
 2013 2492516734445621900581
 2014 881661079106339121150427

prop. = propositions des utilisateurs et déductions (+ prop. CRISCO)
graphe = utilisation du logiciel de calcul des liens manquants probables

Publications portant sur le DES ou ses dérivés

Nous contacter
Pour vos questions ou suggestions, vous pouvez contacter le . Afin d’éviter un engorgement de notre boîte à lettres, nous vous conseillons, avant toute suggestion, de bien réfléchir et de consulter des dictionnaires, notamment le Trésor de la Langue Française informatisé (TLFi), très riche et libre d’accès, et d’utiliser prioritairement l’interface de proposition lorsque celle-ci est adaptée à votre demande.
Si nous ne pouvons pas répondre individuellement, nous essaierons de répondre collectivement dans cette rubrique.


Enveloppe