06-11-2022, 14:21:29
Bonjour,
Ça fait une petit moment que je réfléchit à faire évoluer gSpeech.
Ma découverte récente du moteur de TTS mimic3 (https://github.com/MycroftAI/mimic3) me permet de voir l'avenir avec optimisme.
Il fait tout ce qui est attendu par un TTS dans Primtux :
- voix moins robotique (bcp de triche dans picovox : on est quasi au terme des possibilités)
- moteur offline (nécessite une petite manip pour télécharger les voix mais je pense savoir comment les encapsuler dans un .deb)
- plusieurs voix différentes possibles : homme et femme
- pris en charge du SSML : là, on peut vraiment personnaliser une diction avec précision (pour un applicatif par exemple)
- intégration de speech-dispatcher (gros point sombre avec gSpeech)
- développé en Python : j'ai parcouru les sources et je comprend les grandes lignes, pourrait participer voir l'améliorer etc
C'est loin d'être parfait car comme beaucoup d'outils, il n'a que des notions de prononciation sur des mots isolés de leur contexte.
De plus, il manque des choses que j'avais traité (au moins partiellement dans gSpeech) et qu'il faudra adapter pour être pris en charge :
- remplacement d'abréviations courantes
- acronymes courants
- termes anglais francisé
- prénoms et noms courants
- termes informatiques
- mots familiers ou argot
- etc.
Intégrer mimic3 ne changera quasi pas l'interface de gSpeech (excepté le choix des voix) mais ça va m'obligé à faire bcp d'ajustements de fond, tant gSpeech n'était pensé que pour picoVox.
Gérer les 2 me semble un peu présomptueux. Je me vois plutôt passer de l'un à l'autre.
Pour le coup, je ne sais pas trop ce qui est le mieux :
Faire une version 1.0 (on est à la version 0.11) par exemple qui se passera totalement de picovox ou carrément créer un nouveau projet avec un nouveau nom ?
Merci d'avance de vos éclairages !
Ça fait une petit moment que je réfléchit à faire évoluer gSpeech.
Ma découverte récente du moteur de TTS mimic3 (https://github.com/MycroftAI/mimic3) me permet de voir l'avenir avec optimisme.
Il fait tout ce qui est attendu par un TTS dans Primtux :
- voix moins robotique (bcp de triche dans picovox : on est quasi au terme des possibilités)
- moteur offline (nécessite une petite manip pour télécharger les voix mais je pense savoir comment les encapsuler dans un .deb)
- plusieurs voix différentes possibles : homme et femme
- pris en charge du SSML : là, on peut vraiment personnaliser une diction avec précision (pour un applicatif par exemple)
- intégration de speech-dispatcher (gros point sombre avec gSpeech)
- développé en Python : j'ai parcouru les sources et je comprend les grandes lignes, pourrait participer voir l'améliorer etc
C'est loin d'être parfait car comme beaucoup d'outils, il n'a que des notions de prononciation sur des mots isolés de leur contexte.
De plus, il manque des choses que j'avais traité (au moins partiellement dans gSpeech) et qu'il faudra adapter pour être pris en charge :
- remplacement d'abréviations courantes
- acronymes courants
- termes anglais francisé
- prénoms et noms courants
- termes informatiques
- mots familiers ou argot
- etc.
Intégrer mimic3 ne changera quasi pas l'interface de gSpeech (excepté le choix des voix) mais ça va m'obligé à faire bcp d'ajustements de fond, tant gSpeech n'était pensé que pour picoVox.
Gérer les 2 me semble un peu présomptueux. Je me vois plutôt passer de l'un à l'autre.
Pour le coup, je ne sais pas trop ce qui est le mieux :
Faire une version 1.0 (on est à la version 0.11) par exemple qui se passera totalement de picovox ou carrément créer un nouveau projet avec un nouveau nom ?
Merci d'avance de vos éclairages !