9,438,517minutes transcrites

Transcription par locuteur

Découvrez qui a dit quoi – importez un fichier ou collez un lien et obtenez une transcription séparée par locuteur, avec les changements de tour et le temps de parole de chaque voix.

ou collez un lien

Accepte MP3, M4A, WAV, MP4 et d'autres fichiers audio ou vidéo – ou un lien · renvoie une transcription qui a dit quoi, avec étiquettes de locuteur, horodatage des tours et temps de parole.

Les étiquettes de locuteur proviennent de la séparation des voix, pas de l'identité – Pepys marque les voix distinctes comme Locuteur 1, Locuteur 2, et ainsi de suite. Il ne reconnaît personne par son nom ni par son empreinte vocale ; c'est vous qui renommez les étiquettes avec les vrais noms.

60 min gratuites · sans carte bancaire · nous n'entraînons jamais nos modèles sur votre audio

Adopté par plus de 100k utilisateurs

Qu'est-ce que la transcription par locuteur ?

Pepys réalise une transcription par locuteur de votre enregistrement : il découpe l'audio par voix, étiquette chaque tour de parole (Locuteur 1, Locuteur 2…) et indique le temps de parole de chacun. Importez un fichier ou collez un lien et obtenez une transcription qui a dit quoi, horodatée à la minute, dans plus de 99 langues. Les 60 premières minutes sont gratuites, sans carte bancaire.

Comment fonctionne transcription par locuteur

Importez l'audio ou collez un lien

Déposez un enregistrement à plusieurs voix ou collez un lien – tout format, toute langue.

Obtenez la transcription par locuteur

Pepys découpe l'audio par voix et étiquette chaque tour de parole, avec des horodatages marquant le début et la fin de chaque intervenant.

Renommez, vérifiez et exportez

Remplacez les étiquettes génériques par de vrais noms, recoupez les tours avec l'audio, puis exportez en TXT, Markdown, DOCX, PDF, SRT, VTT ou JSON structuré.

La transcription par locuteur répond à une question qu'une transcription brute ne peut pas trancher : qui parle, et à quel moment ? Pepys découpe l'enregistrement en tours de parole – Locuteur 1, Locuteur 2, et ainsi de suite – pour qu'un entretien, une table ronde, un focus group ou un podcast à deux voix se lise comme un véritable échange plutôt que comme un bloc de texte indifférencié. Chaque tour porte un horodatage de début et de fin, et vous obtenez le temps de parole total par voix : qui a monopolisé, qui s'est à peine exprimé, où ont eu lieu les passages de parole.

C'est pensé pour quiconque a besoin de savoir qui a dit quoi – chercheurs codant des entretiens qualitatifs, journalistes attribuant des citations, développeurs injectant les tours de parole dans un outil de compte rendu ou d'analyse. Les étiquettes vous appartiennent et se renomment en ligne (Locuteur 2 devient « Dr Okafor »), et chaque tour s'exporte en JSON structuré – chaque segment avec son locuteur, ses horodatages de début et de fin et le temps de parole par voix – ou en transcription propre étiquetée par locuteur. Nous n'entraînons jamais nos modèles sur votre audio, et le crédit n'expire jamais.

Des paragraphes nets. Fini les euh et les hésitations.

À gauche, ce que Pepys vous restitue – des paragraphes logiques, débarrassés des mots de remplissage, ponctués et faciles à lire. À droite, le brouillon brut, une ligne par segment, que la plupart des outils de transcription vous laissent.

reel-voiceover.mp4

euh alors ouais genre tout le monde te dit toujours de commencer par ta meilleure phrase tu vois mais euh franchement si tu donnes toute la réponse dès la première seconde ben du coup en fait y a plus aucune raison de continuer à regarder voilà donc l'accroche c'est pas genre le truc le plus malin que tu dis c'est plutôt comme une boucle que t'ouvres et que les gens ont besoin de refermer et euh c'est ça en fait qui retient vraiment les gens quoi

Brut

reel-voiceover.txt

CréateurTout le monde vous répète de commencer par votre meilleure phrase. Mais si vous donnez toute la réponse dès la première seconde, plus personne n'a de raison de continuer à regarder.

CréateurL'accroche n'est pas la phrase la plus maligne que vous prononcez – c'est une boucle que vous ouvrez et que le spectateur a besoin de refermer.

CréateurC'est précisément ce qui retient vraiment les gens.

Nettoyé

AvantAprès

Des tours « qui a dit quoi » avec horodatage de début/fin et temps de parole par locuteur
Renommez les étiquettes génériques en de vrais noms, en ligne – sans rien relancer
Export JSON structuré – segments, étiquettes de locuteur, horodatages et temps de parole pour votre pipeline
Plus de 99 langues, détectées automatiquement · nous n'entraînons jamais nos modèles sur votre audio · le crédit n'expire jamais

Compatible avec les plateformes où vous vivez.

Collez un lien depuis YouTube, TikTok, Instagram, Facebook, Spotify ou Apple Podcasts – ou déposez n'importe quel fichier audio ou vidéo. Nous le transcrivons une seule fois, puis vous l'exportez comme votre flux de travail l'exige.

YouTube
TikTok
Instagram
Facebook
Spotify
Apple Podcasts
ou n'importe quel fichier

Exportez dans n'importe quel format

TXT
Markdown
DOCX
PDF
SRT
VTT
JSON

Les horodatages, les libellés d'intervenants et la synchronisation des sous-titres sont conservés dans chaque export.

Transcription par locuteur – vos questions, nos réponses

Qu'est-ce que la transcription par locuteur ?

La transcription par locuteur consiste à séparer un enregistrement selon la personne qui parle – en découpant l'audio en tours de parole et en étiquetant chacun d'eux (Locuteur 1, Locuteur 2…). Elle répond à « qui a parlé quand », distinctement de « ce qui a été dit ». Pepys fait les deux : il sépare les voix et transcrit en une seule passe.

En quoi est-ce différent d'une simple transcription ?

Une simple transcription vous donne les mots. La séparation des voix ajoute la structure par locuteur par-dessus : les limites de chaque tour, une étiquette par voix et le temps de parole total. Un enregistrement à plusieurs voix se lit alors comme un échange attribué plutôt que comme un seul bloc continu.

Quelle est la précision de l'étiquetage des locuteurs ?

Les limites de tours et les étiquettes sont solides sur des voix nettes et distinctes. Des chevauchements importants, des voix quasi identiques ou un audio bruité peuvent brouiller un tour ou deux – les étiquettes restent donc génériques au départ (Locuteur 1, 2…) et vous renommez et corrigez chaque tour en ligne avant l'export.

Est-ce que l'outil m'indique le nom de chaque locuteur ?

La séparation distingue les voix, elle ne reconnaît pas les identités – les intervenants ressortent donc comme Locuteur 1, Locuteur 2, et ainsi de suite. Vous attribuez les vrais noms une seule fois en ligne, et le changement s'applique à tous les tours de cette voix.

Puis-je exporter les données de locuteur en JSON structuré ?

Oui. L'export JSON vous donne chaque segment avec son étiquette de locuteur, ses horodatages de début et de fin et le temps de parole par locuteur, dans un format compatible Whisper que vous pouvez injecter directement dans un script, un outil d'analyse ou un workflow de recherche – ou exportez en TXT, Markdown, DOCX, PDF, SRT ou VTT pour un usage lisible et des sous-titres.

Plus d'outils gratuits

Continuer la lecture

Ne nous croyez pas sur parole.

Demandez à ChatGPT, Claude ou Perplexity ce qu'est Pepys et à qui ça s'adresse. Un clic, et votre IA préférée fait le travail à votre place.

Demander à ChatGPT Demander à Claude Demander à Perplexity

Transcription par locuteur – gratuit pour commencer

Payez à l'usage – les crédits n'expirent jamais, rien à résilier. Ou commencez gratuitement avec 60 minutes, sans carte.

Commencer gratuitement – 60 minutes ou voir les tarifs