A propos de l’auteur: Xavier Lanne travaille dans le domaine de la cyberdéfense. Il est à l’origine d’un groupe « CyberÉthique » qui a pour but de poser une réflexion philosophique et éthique sur l’impact des technologies sur la vie et la dignité de l’homme. Vous pouvez retrouver son groupe Signal à cette adresse : CyberÉthique.
Saisie vocale et confidentialité, c’est ce qu’offre SayBoard pour votre smartphone !

Au fait comment ça marche la saisie vocale ?
La saisie vocale consiste à taper pour vous le texte qui correspond à ce que vous dites.
La saisie vocale marche donc en 2 étapes :
- La phase de reconnaissance vocale : le logiciel prend du son en entré, et génère un texte en sortie (une suite de caractère) en sorti.
- La phase de saisie : l’application tape le texte qui a été reconnu.
Cette seconde étape n’a rien d’extraordinaire. Il s’agit simplement de taper une suite de caractère de manière automatique.
L’étape sensible est de passer d’un son à la suite de caractère correspondant.
Et la reconnaissance vocale ?
La complexité de cette étape pour un smartphone réside dans le fait qu’elle requiert beaucoup de puissance de calcul. Elle se base sur des modèles mathématiques entraîné par des intelligences artificielles. Or la mémoire RAM et la puissance de calcul du téléphone sont limités, ce qui rend la tâche très compliquée.
Pourtant, la reconnaissance vocale existe depuis de nombreuses années sur les smartphones, avant même qu’ils ne soient équipés de matériel assez puissant pour faire fonctionner un tel système ! Alors comment les GAFAM ont-ils fait pour proposer cette fonctionnalité depuis si longtemps ?
C’est très simple : le calcul ne se fait pas sur votre téléphone, mais sur leur serveur.
Les étapes de la retranscription sont les suivantes :
- Le micro de votre téléphone capte le son.
- En même temps que le son est capté, il est envoyé sur Internet vers des serveurs appartenant au propriétaire de l’application (probablement l’un des GAFAM).
- Le serveur, qui a toutes les ressources nécessaires pour faire les calculs rapidement, traite le signal audio pour y détecter les mots prononcés.
- Il va, par la même occasion, vérifier la cohérence des mots qui se succèdent pour diminuer la source des erreurs.
- Puis il va renvoyer au smartphone le texte correspondant au son qui vient d’être capté (avec un léger décalage dans le temps, bien sûr).

Ok, et la confidentialité dans tout ça?
Vous l’aurez sans doute compris, la faiblesse de ce modèle, c’est la confidentialité de ce que nous dictons.
Le son donne énormément d’information sur ce que nous faisons. Le son de la voix peut-être analysé pour déterminer nos émotions du moment, ce qui se passe en fond (les sons environnants), ainsi que le contenu de ce que nous dictons.
Cela fait beaucoup d’informations en peu de temps, et c’est une vraie mine d’or pour les GAFAM !
Ce que propose SayBoard
SayBoard propose une solution simple et efficace contre les géants du web. Cette application propose de faire l’étape de reconnaissance vocale directement sur le smartphone en téléchargeant le modèle en local, et donc éviter la dépendance à un serveur accessible sur Internet.
SayBoard n’est en fait qu’une jolie interface pour un projet beaucoup plus complexe : Vosk.
Vosk est un moteur de reconnaissance vocale qui a pour but de pouvoir fonctionner sur tout type de système informatique.
Le projet Vosk a été lancé en 2019 par un groupe de scientifique pour répondre au manque d’IA de reconnaissance vocale capable d’être entraînée rapidement sur un très grand nombre de données. Il est en effet très complexe d’entraîner un système de reconnaissance vocale fiable à coût faible, et ce, pour un grand nombre de langue.
Aujourd’hui, Vosk est leader dans le domaine de l’Open Source. Il supporte pas moins d’une vingtaine de langues, et propose de la retranscription en direct (il n’attend pas que la capture du son soit terminé pour commencer la reconnaissance).
Ce projet propose à ce jour deux types de modèles mathématiques pour chaque langue :
- un modèle lourd avec une grande capacité de reconnaissance vocale et donc un faible taux d’erreur.
- et un autre modèle très léger mais qui peut tourner sur un système embarqué (tel que votre smartphone).
SayBoard utilise donc Vosk pour l’étape de reconnaissance vocale, et tous les calculs sont entièrement réalisés en local, sur votre smartphone.
De cette manière, l’application SayBoard assure que le traitement de la voix est fait dans l’unique but de produire le texte dicté, et non pour compléter la création d’un modèle de notre personnalité chez les GAFAM.
Guide d’utilisation de Sayboard
L’installation n’est pour le moment pas supporté par les magasins d’application standard. L’installation se fait donc « à la main », en 2 étapes :
- Télércharger l’apk sur votre smartphone directement depuis le dépôt : https://github.com/ElishaAz/Sayboard/releases/download/v2.0.1/Sayboard.apk
- Ouvrir l’apk pour l’installer (il faudra peut-être autoriser l’application comme source d’installation, n’oubliez pas de retirer la permission ensuite).
L’intégration de SayBoard au niveau d’Android se fait très naturellement : SayBoard se fait tout simplement passer pour un clavier. En effet, la seule chose qui diffère entre les deux est qu’au lieu de saisir les caractères que nous cliquons, il tape les caractères reconnus par Vosk sur le son entrant.
Ensuite, pour passer facilement du clavier courant au clavier SayBoard, il suffit de cliquer sur la touche « saisie vocale » en forme de micro de votre clavier. Ensuite, la simple flèche retour permettra en un clic de revenir au clavier principal.
Cependant, il faut être réaliste et indulgent : SayBoard est encore très jeune (quelques mois seulement) et attend encore quelques améliorations.
Vosk souffre encore d’un gros point négatif : il n’a pas la capacité de placer la ponctuation automatiquement. Il faut donc l’ajouter à la main (SayBoard prévoit d’ajouter des touches de ponctuation pour pouvoir les insérer en même temps que nous dictons).
Et enfin, les ressources très limitées du smartphone rendent la reconnaissance approximative. Il faut donc prendre le temps de bien articuler et détacher les mots pour que celle-ci fonctionne à la quasi-perfection ! Cela dit, la qualité de la retranscription reste incroyable au vu des conditions techniques d’exécutions.
D’une manière générale, SayBoard est aujourd’hui la meilleure application de saisie vocale qui respecte la vie privée. Ce projet a un grand avenir devant lui ! Il est d’ores et déjà en cours d’intégration dans d’autres projets tel que le clavier FlorisBoard.