Retour aux actualités
Intelligence artificielle

PyannoteAI : une IA pour retranscrire parfaitement les conversations

Publié le 17 juillet 2024|par Jean-Sébastien Zanchi

En s’appuyant sur les compétences d’un chercheur du CNRS en matière de diarisation, la start-up est experte pour reconnaître les interlocuteurs d’une conversation et la reproduire automatiquement par écrit.

Transcrire ce qu’il se dit, savoir qui le dit et à quel moment. C’est la mission que s’est fixée pyannoteAI, une start-up basée sur le savoir-faire accumulé depuis plus de dix ans par Hervé Bredin, chargé de recherche au CNRS : « J’ai passé une thèse en 2008 dont le sujet était déjà le traitement automatique de la parole. Depuis 2014, je travaille quasi exclusivement à la question de savoir qui parle et quand », explique le scientifique.

Son savoir fondamental, il a pourtant décidé de le mettre en application depuis cette date : « Notre mission est de faire avancer la science et de la partager au plus grand nombre, notamment en écrivant des articles scientifiques. Mais j’avais en parallèle créé la librairie open source Pyannote.audio, un outil dans lequel j’intégrais au fur et à mesure les avancées publiées dans mes papiers ».

Un succès en open source

Cette librairie open source écrite en Python est depuis dix ans à la disposition de tous : « Elle a beaucoup de succès dans le monde académique et de nombreux industriels l’utilisent aussi en production, mais je n’avais pas de statistiques de téléchargements. Il y a un an et demi, j’ai donc mis en place un formulaire pour pouvoir accéder à Pyannote.audio et j’ai constaté qu’il a été téléchargé par plus de 50 000 personnes sur cette seule période », s’enthousiasme le chercheur.

Un succès dû notamment aux dix années de recherche écoulées depuis le lancement du projet. Pyannote peut ainsi repérer au sein d’une conversation les tours de paroles, segmenter les temps de début et de fin et les regrouper par similarité du timbre de voix. « C’est une intelligence artificielle prédictive qui utilise deux réseaux neuronaux : un pour la segmentation en tours de parole, un autre pour l’identification du locuteur », détaille Hervé Bredin.  Le nom de cette discipline en français ? Segmentation et regroupement en locuteur, mais le nom anglais « diarisation » s’est imposé dans le milieu scientifique, consacrant ainsi cette brique essentielle à la retranscription de la voix vers du texte.

C’est une intelligence artificielle prédictive qui utilise deux réseaux neuronaux : un pour la segmentation en tours de parole, un autre pour l'identification du locuteur  ’’

 Hervé Bredin

Hervé Bredin

Chargé de recherche au CNRS

Le supercalculateur Jean Zay à la manœuvre 

Pour entraîner ses réseaux neuronaux, le chercheur utilise des extraits de conversation entre plusieurs personnes et surtout la puissance de calcul des GPU [1]actuels : « Nous avons beaucoup bénéficié du supercalculateur Jean Zay du CNRS ». Mais cela n’est nécessaire qu’à l’entraînement du modèle pour qu’il soit le plus performant possible une fois installé sur un ordinateur personnel : « C’est ce qui nous permet que ça aille vite quand on l’utilise. Sur un Mac équipé des dernières puces M d’Apple Silicon, on peut traiter une conversation d’une heure en moins de trente secondes ».

Des performances qui sont encore en amélioration avec la création de la toute nouvelle société qu’il a cofondée avec Vincent Molina et qui utilise un nouvel algorithme. Entre les deux acolytes, les rôles sont parfaitement répartis : « Je viens du monde du business, j’ai d’abord fait du conseil en stratégie dans un cabinet, puis je suis passé du côté client et je suis tombé amoureux des produits tech. Travailler avec Hervé sur ce projet a été comme une évidence », résume le CEO de pyannoteAI. « J’avais envie de me lancer dans l’aventure entrepreneuriale, confirme le scientifique. Nous nous sommes rencontrés en tout début de cette année par l’intermédiaire d’un ami commun. En mars, nous déposions les statuts de la société. »

Noeuds de calcul du supercalculateur Jean Zay. © Cyril FRESILLON / IDRIS / CNRS Images

Surfer sur la tendance de l’IA

Grâce à la SATT Toulouse Tech Transfer, la start-up a donc pu négocier la licence du modèle qu’elle utilise, qui lui n’est pas open source. « Cette architecture est géniale, elle est la preuve d’une compréhension de l’ensemble de l’écosystème », s’enthousiasme Vincent Molina. « Les évolutions qui sont faites peuvent bénéficier à la fois à la start-up et au CNRS », constate quant à lui Hervé Bredin, désormais CSO (chief scientific officer) de pyannoteAI, grâce à l’obtention du concours scientifique qui lui permet de consacrer une partie de son temps à son entreprise.

Les deux associés visent désormais un avenir radieux : « Nous nous engageons dans une levée de fonds qui s’annonce prometteuse, non seulement nous bénéficions de toute l’expertise nécessaire et l’aura de Hervé dans le monde scientifique, mais nous sommes aussi dans un momentum sur ce sujet », se réjouit le dirigeant. Qu’il s’agisse du secteur des médias, de la médecine, et même du renseignement, la technologie de pyannoteAI a en effet de nombreuses applications professionnelles dans lesquelles sa technologie de diarisation est indispensable.

[1] Graphics Processing Unit (unité de traitement graphique en français)

La lettre innovation

Partenariats, création d'entreprises, brevets, licences, événements... Retrouvez tous les mois les dernières actualités de la valorisation et de l'innovation au CNRS.

Nos autres actualités

Voir toutes les actus

28 avril 2025

Environnement

Waterland : Des membranes inspirées de la nature pour un dessalement durable

Dans un contexte de pression croissante sur les ressources en eau douce, le chercheur Mihail Barboiu pilote le projet Waterland. L’objectif : développer des membranes biomimétiques inspirées des aquaporines, des protéines naturelles régissant le transport de l’eau dans les cellules vivantes. Cette technologie, issue de l’Institut européen des membranes et soutenue par le programme RISE du CNRS, vise à réduire de 40 à 50% les coûts de consommation énergétique et d’investissement liés au dessalement. Grâce à cette approche, Waterland pourrait contribuer à un avenir plus durable.
Lire la suite

28 avril 2025

Startup Environnement Energie

Nomos : un pas vers la circularisation des nutriments

Alors que les énergies fossiles risquent de s’épuiser avant 2050, il est aujourd’hui nécessaire de leur trouver des alternatives. La méthanisation est une manière de produire du biogaz en dégradant des déchets organiques avec des bactéries. Le problème : ce procédé est incomplet puisqu’il produit un déchet, le digestat, riche en ammoniac, une forme d’azote volatile. La future start-up Nomos développe actuellement une manière de valoriser ce digestat pour l’assainir et produire un engrais organique plus respectueux de l’environnement .
Lire la suite

28 avril 2025

Sciences humaines et sociales Artisanat

4 questions à Maria Gurrado sur son projet IDEM

Maria Gurrado est docteure en Histoire et Archiviste paléographe à l’Institut de recherche et d’histoire des textes du CNRS (l’IRHT). Ambassadrice de l’innovation CNRS, elle est responsable du projet d’innovation technologique IDEM (pour Identification du Ductus de l’Écriture Médiévale), financé et accompagné par le programme de prématuration du CNRS.
Lire la suite
Fermer

Contactez-nous

  • Ce champ n’est utilisé qu’à des fins de validation et devrait rester inchangé.
Fermer

Les brevets les plus récents