Retour aux actualités
Intelligence artificielle

PyannoteAI : une IA pour retranscrire parfaitement les conversations

Publié le 17 juillet 2024|par Jean-Sébastien Zanchi

En s’appuyant sur les compétences d’un chercheur du CNRS en matière de diarisation, la start-up est experte pour reconnaître les interlocuteurs d’une conversation et la reproduire automatiquement par écrit.

Transcrire ce qu’il se dit, savoir qui le dit et à quel moment. C’est la mission que s’est fixée pyannoteAI, une start-up basée sur le savoir-faire accumulé depuis plus de dix ans par Hervé Bredin, chargé de recherche au CNRS : « J’ai passé une thèse en 2008 dont le sujet était déjà le traitement automatique de la parole. Depuis 2014, je travaille quasi exclusivement à la question de savoir qui parle et quand », explique le scientifique.

Son savoir fondamental, il a pourtant décidé de le mettre en application depuis cette date : « Notre mission est de faire avancer la science et de la partager au plus grand nombre, notamment en écrivant des articles scientifiques. Mais j’avais en parallèle créé la librairie open source Pyannote.audio, un outil dans lequel j’intégrais au fur et à mesure les avancées publiées dans mes papiers ».

Un succès en open source

Cette librairie open source écrite en Python est depuis dix ans à la disposition de tous : « Elle a beaucoup de succès dans le monde académique et de nombreux industriels l’utilisent aussi en production, mais je n’avais pas de statistiques de téléchargements. Il y a un an et demi, j’ai donc mis en place un formulaire pour pouvoir accéder à Pyannote.audio et j’ai constaté qu’il a été téléchargé par plus de 50 000 personnes sur cette seule période », s’enthousiasme le chercheur.

Un succès dû notamment aux dix années de recherche écoulées depuis le lancement du projet. Pyannote peut ainsi repérer au sein d’une conversation les tours de paroles, segmenter les temps de début et de fin et les regrouper par similarité du timbre de voix. « C’est une intelligence artificielle prédictive qui utilise deux réseaux neuronaux : un pour la segmentation en tours de parole, un autre pour l’identification du locuteur », détaille Hervé Bredin.  Le nom de cette discipline en français ? Segmentation et regroupement en locuteur, mais le nom anglais « diarisation » s’est imposé dans le milieu scientifique, consacrant ainsi cette brique essentielle à la retranscription de la voix vers du texte.

C’est une intelligence artificielle prédictive qui utilise deux réseaux neuronaux : un pour la segmentation en tours de parole, un autre pour l'identification du locuteur  ’’

 Hervé Bredin

Hervé Bredin

Chargé de recherche au CNRS

Le supercalculateur Jean Zay à la manœuvre 

Pour entraîner ses réseaux neuronaux, le chercheur utilise des extraits de conversation entre plusieurs personnes et surtout la puissance de calcul des GPU [1]actuels : « Nous avons beaucoup bénéficié du supercalculateur Jean Zay du CNRS ». Mais cela n’est nécessaire qu’à l’entraînement du modèle pour qu’il soit le plus performant possible une fois installé sur un ordinateur personnel : « C’est ce qui nous permet que ça aille vite quand on l’utilise. Sur un Mac équipé des dernières puces M d’Apple Silicon, on peut traiter une conversation d’une heure en moins de trente secondes ».

Des performances qui sont encore en amélioration avec la création de la toute nouvelle société qu’il a cofondée avec Vincent Molina et qui utilise un nouvel algorithme. Entre les deux acolytes, les rôles sont parfaitement répartis : « Je viens du monde du business, j’ai d’abord fait du conseil en stratégie dans un cabinet, puis je suis passé du côté client et je suis tombé amoureux des produits tech. Travailler avec Hervé sur ce projet a été comme une évidence », résume le CEO de pyannoteAI. « J’avais envie de me lancer dans l’aventure entrepreneuriale, confirme le scientifique. Nous nous sommes rencontrés en tout début de cette année par l’intermédiaire d’un ami commun. En mars, nous déposions les statuts de la société. »

Noeuds de calcul du supercalculateur Jean Zay. © Cyril FRESILLON / IDRIS / CNRS Images

Surfer sur la tendance de l’IA

Grâce à la SATT Toulouse Tech Transfer, la start-up a donc pu négocier la licence du modèle qu’elle utilise, qui lui n’est pas open source. « Cette architecture est géniale, elle est la preuve d’une compréhension de l’ensemble de l’écosystème », s’enthousiasme Vincent Molina. « Les évolutions qui sont faites peuvent bénéficier à la fois à la start-up et au CNRS », constate quant à lui Hervé Bredin, désormais CSO (chief scientific officer) de pyannoteAI, grâce à l’obtention du concours scientifique qui lui permet de consacrer une partie de son temps à son entreprise.

Les deux associés visent désormais un avenir radieux : « Nous nous engageons dans une levée de fonds qui s’annonce prometteuse, non seulement nous bénéficions de toute l’expertise nécessaire et l’aura de Hervé dans le monde scientifique, mais nous sommes aussi dans un momentum sur ce sujet », se réjouit le dirigeant. Qu’il s’agisse du secteur des médias, de la médecine, et même du renseignement, la technologie de pyannoteAI a en effet de nombreuses applications professionnelles dans lesquelles sa technologie de diarisation est indispensable.

[1] Graphics Processing Unit (unité de traitement graphique en français)

La lettre innovation

Partenariats, création d'entreprises, brevets, licences, événements... Retrouvez tous les mois les dernières actualités de la valorisation et de l'innovation au CNRS.

Nos autres actualités

Voir toutes les actus

27 novembre 2025

Santé

LAVR-289 : le très prometteur antiviral à large spectre porté par une alliance entre le CNRS, l’université d’Orléans et l’industrie

Un candidat-médicament innovant, né de la chimie académique française, montre une activité exceptionnelle contre plusieurs familles de virus ADN. Fruit d’une collaboration étroite entre l’ICOA, NeoVirTech et CNRS Innovation — qui a assuré sa brevetabilité*, LAVR-289 entre aujourd’hui dans une phase clé de maturation technologique.

Lire la suite

27 novembre 2025

Environnement matériaux

CIMEN met au point un ciment à impact carbone négatif

La production de ciment génère plus de 7% des émissions mondiales de CO2, principalement en raison du décarbonatage du calcaire, qui constitue 80% du ciment Portland. Pour réduire cet impact, il est possible de remplacer une partie du ciment par des résidus sidérurgiques ou d’autres matériaux, mais atteindre la neutralité carbone nécessite également des procédés comme la capture de CO2, dont la viabilité économique reste incertaine. Face à ce problème, le projet CIMEN développe une alternative radicale : utiliser des minéraux silico-magnésiens non carbonatés pour créer de nouveaux ciments.
Lire la suite

20 novembre 2025

Programme

Le CNRS, premier du classement 2025 des centres de recherche européens encourageant la création d’entreprises innovantes !

Ce jeudi 20 novembre, le « European Spinouts Report 2025 » est paru. Le CNRS y est classé premier parmi les centres de recherche à l’origine de la création de spinouts dans les secteurs de la deep tech & life science. Une belle performance qui confirme sa position de leader européen dans le transfert d’innovations issues des laboratoires vers le monde économique.
Lire la suite
Fermer

Contactez-nous

  • Ce champ n’est utilisé qu’à des fins de validation et devrait rester inchangé.
Fermer

Les brevets les plus récents