Le terme de “Speech-to-Text” ou de reconnaissance automatique par la parole (RAP), un concept qui semblerait être complexe, est en réalité utilisé tous les jours, notamment lorsque l’on demande à l’oral quelque chose au moteur de recherche Google ou encore sur WhatsApp lorsque l’on envoie un vocal à des amis ou sa famille.
Depuis peu, cette technologie peut aussi être utilisée par des logiciels de veille stratégique. La veille stratégique, très utilisé par les entreprises et les administrations, est un concept qui vise à surveiller la presse papier, les médias en ligne, les journaux spécialisés ou encore les réseaux sociaux afin de pouvoir retenir des informations dans le but de prendre des décisions corrélées avec l’objectif visé par les compagnies ou institutions. En général, la veille stratégique peut-être juridique, concurrentielle, de marché, ou encore commerciale. La veille n’est pas uniquement ciblée pour les entreprises, chaque personne fait au quotidien de la veille sans forcément s’en rendre compte. Cela peut-être le cas des chercheurs en thèse, ou encore des notifications de médias pour nous informer sur des sujets de prédilection ou encore la recherche des meilleurs prix pour des services. Cette veille peut même être géographique lorsque l’on cherche des biens à louer, ou acheter, en privilégiant tel ou tel quartier.
Avec l’avènement des vidéos, la montée en puissance des podcasts, des shorts vidéos, l’information est désormais disponible également sous formes de contenus audio. Pour autant, est-il possible d’avoir l’information une fois qu’elle est contenue dans un audio. C’est toute la question que se posent, depuis de nombreuses années, les entreprises productrices de logiciels de veille. L’objectif des leaders du secteur est de développer des outils technologiques qui permettent la retranscription vocale en écriture afin de pouvoir créer une récupération automatique de l’information et la partager directement au veilleur.
Les origines du “Speech-to-Text”
Comme le rapporte le site internet du média Le Big Data, le “speech to text” est “une technologie qui fait partie du champ interdisciplinaire de la linguistique informatique, le Speech-to-Text est une technologie de reconnaissance vocale qui permet de transformer un discours oral en texte de manière automatisée”.
Pour revenir aux origines, la technologie du “Speech-to-Text” est née dans les années 50. Les premiers systèmes de reconnaissance vocale étaient axés sur les chiffres et non sur les mots. En 1952, les Laboratoires Bell ont conçu le système « Audrey » qui pouvait reconnaître une seule voix prononçant des chiffres à haute voix. Dix ans plus tard, IBM a lancé « Shoebox », qui comprenait et répondait à 16 mots en anglais. A la fin des années 60, la technologie pouvait prendre en charge des mots comportant quatre voyelles et neuf consonnes. En 70, l’entreprise BellSouth a introduit le portail vocal (VAL), un système interactif de reconnaissance vocale.
Dès les années 2000, Google arrive avec le lancement de Google Voice Search. C’était également important parce que la puissance de traitement pouvait être déchargée dans des centres de données qui analysaient les besoins. En 2011, Apple a lancé Siri, qui était similaire au système de recherche vocale de Google. Le début de cette décennie a vu une explosion d’autres applis de reconnaissance vocale.
Veille et “Speech-to-Text” : quels enjeux et quels sont les avantages/inconvénients ?
Le “Speech-to-Text” : retranscription du contenu d’un fichier audio sous forme de texte se fait par un logiciel qui sépare les mots dictés par l’utilisateur en courts samples. Ces échantillons sont ensuite associés à des phonèmes ou unités de prononciation. Pour continuer, l’intelligence artificielle trie les résultats, afin de tenter d’avoir la plus juste valeur du mot ou de la phrase qui a été prononcé par l’utilisateur ou la donnée du son.
Pour Digimind, qui indique dans son rapport État de l’art & tendances Veille et Market Intelligence, le “Speech-to-Text” “permettra la prise en charge de l’information orale, ce qui outre un gain de temps substantiel pourrait bousculer les habitudes de collecte des veilleurs et les inciter à recueillir davantage d’information dite « déstructurée », un gisement d’information jusqu’ici inexploitable.”
Pour autant, malgré les innovations, les logiciels de veille permettant d’utiliser la reconnaissance vocale “Speech-to-Text” sont très difficiles à développer et leur exploitation reste coûteuse. En effet, il y a une demande importante d’entraînement de l’outil, limitant leur accès aux organismes institutionnels, aux grandes entreprises ou aux prestataires de services qui eux arrivent à mutualiser ces technologies pour les besoins de leurs clients. En outre, certaines particularités, comme les accents régionaux, ou les bruits de fond, rendent la tâche encore complexe dans certains cas.
Où en sont les entreprises spécialisées ?
Les premières sociétés à avoir travaillé sur la technologie du “Speech-to-Text” sont Vocapia Research (anciennement Vecsys Research), avec sa solution VoxSigma, ou Exalead (filiale de Dassault Systems) avec son moteur Voxalead mais il semblerait que l’outil ait été abandonné depuis par la filiale du groupe de défense français Dassault. Alors que le marché de la veille, comme ceux des marchés tournés vers le digital, évolue très rapidement, revenons sur les évolutions actuelles de la veille stratégique pour une surveillance des nouveaux médias en ligne.
- Solutions de veilles informationnelles collectant des données de contenus audios
Bertin Technologies, qui a développé la solution de veille AMI Software, et récemment racheté par Chapsvision, a pour sa part travaillé sur la solution MediaSpeech® qui permet l’indexation, la recherche et l’analyse de sources audios. Dans une démarche de relation client, depuis des années le Logiciel Call Center d’Axialys permet aux utilisateurs de récupérer l’historique des appels passés avec leur client, grâce à la fonctionnalité de “Speech-to-Text”. Pour terminer, penchons nous sur le cas de TalkWalker, depuis 2021 la filiale de Trendiction a annoncé l’intégration de 35.000 podcasts, uniquement en anglais, à sa plateforme de veille social media. TW précise que les podcasts sont issus de différentes plateformes similaires à Apple Podcasts.
- Solutions de veilles informationnelles collectant des données de contenus vidéos
Telescoop.tv utilise un site qui agrège les contenus de nombreuses chaînes de télévision (principalement des chaînes françaises), en indexant le contenu textuel “Speech-to-Text” et propose un moteur de recherche pour trouver les émissions qui traitent de vos sujets de surveillance. Une cinquantaine d’émissions dont les journaux nationaux sont ainsi disponibles avec une périodicité de 15 jours. KBCrawl a annoncé de son côté en octobre 2022 la possibilité, pour les détenteurs de la solution, de pouvoir utiliser la technologie du “Speech-to-Text” sur YouTube. Récemment racheté par Onclusive, en juillet 2022, le français Digimind très au fait des enjeux technologiques de par les nombreux billets écrits sur le sujet n’a pour l’instant pas réalisé d’avancée sur la technologie. L’entreprise Angevine Sindup, à elle pour le coup réalisée un partenariat technologique avec l’entreprise Médiatree pour proposer à ses clients l’analyse “Speech-to-Text” sur plus de 5.000 chaînes. L’entreprise dirigée par Mickaël Réault indique qu’il est possible de chercher un des 12000 Milliards de mots référencés dans son moteur de veille. Toutefois, l’entreprise française ne précise pas si l’outil s’automatise.
Le marché de la veille stratégique est à un tournant majeur où les besoins des entreprises pour étudier l’actualité, le sentiment du public et du consommateur n’a jamais été aussi précieux pour définir les politiques et la stratégie des institutions publiques ou privées. Les enjeux de respect des propriétés intellectuelles, du respect des données personnelles et de la considération environnementale seront à également à protéger. Le prochain marché de la veille prendra en compte les avancées futures des contenus médiatiques, développera des solutions de surveillances sur les grandes zones démographiques qui disposent d’une nouvelle influence. Aussi, il saura travailler sur l’élaboration d’un soft power pour mieux s’approprier les futures réglementations extraterritoriales. Enfin, les acteurs qui chercheront à allier innovation technologique et amélioration des besoins humains, sont ceux qui devraient gagner la course dans ce marché stratégique, jusqu’au prochain “top départ”.