Archives pour l'étiquette Text-To-Speech

Comment parle un robot ?

Dans cette vidéo, Sridhar Raghawan et Roberto Pieraccini, de l’équipe de développement de Jibo, nous expliquent les enjeux de la production de parole par leur robot. Si vous ne connaissez pas Jibo, ses concepteurs le présentent comme le premier robot social à destination du foyer. Le projet a obtenu près de 4 millions de dollars en financement participatif sur la plate-forme Indiegogo, avant de lever 25 millions de dollars auprès de capitaux-risqueurs en janvier dernier.

Parmi les explications que j’ai trouvées particulièrement intéressantes dans cette vidéo, il y a le fait que Jibo mette de l’émotion dans sa parole. Le robot doit être capable d’exprimer de la surprise, de la colère, du regret, etc., au travers de différentes intonations. Cela complique singulièrement la tâche des développeurs.

Mais surtout, les deux ingénieurs expliquent en particulier que Jibo parle à partir de texte. Quand on lui pose une question comme « quel temps fera t-il demain ? », Jibo va d’abord constituer une réponse sous forme de texte. Ensuite, un logiciel de synthèse vocale (TTS ou Text-to-Speech) va convertir ce texte en parole.

Autrement dit, Jibo ne parle pas du tout à la manière d’un être humain, puisque sa parole passe par la production intermédiaire de texte. Le robot s’exprime par la voix à la manière d’un être humain, mais le processus permettant cette expression est totalement différent de ce qu’il est chez nous.

Cela me paraît important de le souligner : les robots vont se comporter de manière de plus en plus humaine en apparence, mais leur intelligence est tout autre que la nôtre.