CRISCO

Actualité : évolution de Kali en 2010-2011


Programmes

- Les dernières versions du lecteur d’écran Jaws (11 et 12) ne possèdent plus que deux synthèses vocales : Eloquence et Sapi5. Kali a disparu de la liste, mais le problème a été contourné en installant Kali sous le nom de Sapi5. Les paramètres sont bons, tout remarche.
- Le portage sous le système d’exploitation Linux, déjà effectué en 2006, a été à nouveau réalisé. Seul le module de gestion de la carte-son (alsa) ne fonctionne pas encore. Il semble beaucoup plus délicat à manipuler que quelques années auparavant. Il faudrait récupérer un module au point, à partir d’une autre application sonore.

Modèle pragmatique

- Aujourd’hui opérationnel, ce modèle réalise une prédiction des mots ou groupes de mots à mettre en relief par la prosodie, afin d’améliorer la compréhension et le naturel des énoncés. Des dictionnaires basés sur la probabilité de saillance prosodique permettent d’obtenir de bons résultats (taux de succès 80 % en français et 70 % en anglais). Une fois ces dictionnaires au point, des règles mixant syntaxe et sémantique seront nécessaires pour réduire encore le taux d’erreurs.

Analyse syntaxique

- De nombreuses erreurs ont été corrigées. Par exemple, en français, la préposition "entre" recevait parfois un accent à cause de la confusion avec le verbe (ex : « la monnaie entre ses mains »). Quelques règles supplémentaires on permis de mieux distribuer les deux catégories. Des mots oubliés ont été ajoutés au dictionnaire de catégorisation, corrigeant au passage quelques erreurs. Un petit bilan des erreurs d’analyse sur corpus donne les résultats suivants, rapportés au nombre de mots : 1 % d’erreurs de découpage (souvent perceptibles prosodiquement) et 4 % d’erreurs de relation (plus rarement perceptibles, mais pouvant engendrer des pauses inopportunes).
- En anglais, le bilan est de 2 % d’erreurs de découpage et 8 % d’erreurs de relation, deux fois plus qu’en français. Ce n’est pas si mal, l’anglais ayant été commencé 5 ans après le français.

Transcription graphème-phonème

- Une centaine de corrections ont été effectuées pour le français, permettant de corriger des oublis, notamment les mots : aïe, Alonso, il but (vs un but), ch’ti, dangereus(e)ment (élision), Giuseppe, Janet, my, quoi que ce soit = quoi qu’ce soit, Riemann, sommair(e)ment (élision). Le taux d’erreurs sur corpus se situe aux alentours de 1 % par mot (plus important sur les corpus journalistiques à cause du grand nombre de noms propres).
- En anglais, la lecture d’un fichier de mots rangés par ordre de fréquence, jusqu’au rang 5600, a permis de corriger environ 200 erreurs de transcription. C’est la méthode la plus efficace pour corriger rapidement les erreurs les plus courantes. L’ajout systématique des flexions manquantes dans le dictionnaire se poursuit, de même que l’enrichissement à partir du dictionnaire de prononciation Cambridge. Enfin, environ 40 % des homographes hétérophones sont maintenant traités (la plupart nécessitant la distinction entre les catégories nom et verbe par analyse syntaxique). Le taux d’erreurs de transcription est aujourd’hui d’environ 3,3 % par mot (soit une erreur tous les 30 mots). Même si toutes les erreurs ne sont pas perceptibles, il faudrait descendre à 1 % par mot pour que le résultat soit jugé pleinement satisfaisant.

Modèle prosodique

- Le modèle naturel est maintenant intégré à Kali. Il est mixé avec le modèle normalisé (ancienne version, basée essentiellement sur les accents de frontières et la déclinaison) qui produit une prosodie un peu répétitive et manquant de naturel, mais sans à-coups. Les discontinuités entre les contours prosodiques naturels juxtaposés se trouvent ainsi atténuées. L’essentiel du travail des deux dernières années sur ce module a consisté à prélever des contours (plusieurs centaines) et à les corriger pour réduire les discontinuités. Mais il s’avère que des discontinuités persistent et que l’excès de corrections tend à rapprocher le modèle naturel du modèle normalisé, lui enlevant une bonne partie de son intérêt. C’est pourquoi une nouvelle méthode est en cours de développement : il s’agit d’utiliser les paramètres de tous les contours prosodiques enregistrés pour calculer les paramètres moyens du modèle normalisé, après avoir corrigé automatiquement les différences de lignes de base. Le modèle normalisé ainsi amélioré servira à fixer des limites entre lesquelles le modèle naturel sera libre de varier. Les discontinuités importantes seront fortement atténuées, mais les variations plus fines à l’intérieur des frontières seront intégralement conservées. Si cette méthode ne pose pas trop de problèmes techniques, le résultat sera plus naturel tout en présentant moins de défauts. De plus, les contours pourront plus facilement être complétés par de nouveaux enregistrements, en évitant des corrections manuelles fastidieuses.
- En français, jusqu’ici, 303 contours ont été prélevés et étiquetés. Leur taux d’utilisation sur corpus est de 56 %, ce qui signifie qu’en moyenne, 56 % des groupes prosodiques d’un texte trouvent un contour qui satisfait à leurs caractéristiques pragmatiques, syntaxiques et rythmiques. Les 44 % restants utilisent par défaut la prosodie normalisée. L’expérience montre que des contours normalisés insérés entre des contours naturels passent souvent inaperçus. Il est probable qu’un taux d’utilisation de 75 % donne entière satisfaction.
- En anglais, jusqu’ici, 286 contours ont été prélevés et étiquetés. Leur taux d’utilisation est de 35 %, ce qui est encore bien insuffisant mais logique : le modèle naturel de l’anglais devra posséder beaucoup plus de contours prosodiques que celui du français car la présence d’accents de mot augmente considérablement la combinatoire. Il reste à voir si un nombre raisonnable de contours (environ 600 par exemple) suffirait à couvrir une majorité de groupes prosodiques sur des textes quelconques.
- La suite sera l’utilisation de contours prosodiques affectifs, soit avec des balises ou des réglages (l’utilisateur choisit une attitude ou une émotion donnée), soit par analyse affective automatique (dont la mise en œuvre reste très floue aujourd’hui). Encore beaucoup de travail en perspective…

Bases de diphones

- Pour toutes les voix, les énoncés ayant servi au prélèvement des diphones sont progressivement réutilisés pour l’amélioration de la base. En effet, la base de diphones étant stabilisée, les comparaisons entre diphones sont plus performantes. Quelques dizaines de diphones des voix françaises et quelques dizaines de diphones des voix anglaises ont été ainsi améliorés, pour un résultat certes imperceptible sur un an, mais cumulatif.


Enveloppe