Transcription par locuteur
Découvrez qui a dit quoi – importez un fichier ou collez un lien et obtenez une transcription séparée par locuteur, avec les changements de tour et le temps de parole de chaque voix.
Accepte MP3, M4A, WAV, MP4 et d'autres fichiers audio ou vidéo – ou un lien · renvoie une transcription qui a dit quoi, avec étiquettes de locuteur, horodatage des tours et temps de parole.
Les étiquettes de locuteur proviennent de la séparation des voix, pas de l'identité – Pepys marque les voix distinctes comme Locuteur 1, Locuteur 2, et ainsi de suite. Il ne reconnaît personne par son nom ni par son empreinte vocale ; c'est vous qui renommez les étiquettes avec les vrais noms.
60 min gratuites · sans carte bancaire · nous n'entraînons jamais nos modèles sur votre audio
Qu'est-ce que la transcription par locuteur ?
Pepys réalise une transcription par locuteur de votre enregistrement : il découpe l'audio par voix, étiquette chaque tour de parole (Locuteur 1, Locuteur 2…) et indique le temps de parole de chacun. Importez un fichier ou collez un lien et obtenez une transcription qui a dit quoi, horodatée à la minute, dans plus de 99 langues. Les 60 premières minutes sont gratuites, sans carte bancaire.
Comment fonctionne transcription par locuteur
Importez l'audio ou collez un lien
Déposez un enregistrement à plusieurs voix ou collez un lien – tout format, toute langue.
Obtenez la transcription par locuteur
Pepys découpe l'audio par voix et étiquette chaque tour de parole, avec des horodatages marquant le début et la fin de chaque intervenant.
Renommez, vérifiez et exportez
Remplacez les étiquettes génériques par de vrais noms, recoupez les tours avec l'audio, puis exportez en TXT, Markdown, DOCX, PDF, SRT, VTT ou JSON structuré.
La transcription par locuteur répond à une question qu'une transcription brute ne peut pas trancher : qui parle, et à quel moment ? Pepys découpe l'enregistrement en tours de parole – Locuteur 1, Locuteur 2, et ainsi de suite – pour qu'un entretien, une table ronde, un focus group ou un podcast à deux voix se lise comme un véritable échange plutôt que comme un bloc de texte indifférencié. Chaque tour porte un horodatage de début et de fin, et vous obtenez le temps de parole total par voix : qui a monopolisé, qui s'est à peine exprimé, où ont eu lieu les passages de parole.
C'est pensé pour quiconque a besoin de savoir qui a dit quoi – chercheurs codant des entretiens qualitatifs, journalistes attribuant des citations, développeurs injectant les tours de parole dans un outil de compte rendu ou d'analyse. Les étiquettes vous appartiennent et se renomment en ligne (Locuteur 2 devient « Dr Okafor »), et chaque tour s'exporte en JSON structuré – chaque segment avec son locuteur, ses horodatages de début et de fin et le temps de parole par voix – ou en transcription propre étiquetée par locuteur. Nous n'entraînons jamais nos modèles sur votre audio, et le crédit n'expire jamais.
Des paragraphes nets. Fini les euh et les hésitations.
À gauche, ce que Pepys vous restitue – des paragraphes logiques, débarrassés des mots de remplissage, ponctués et faciles à lire. À droite, le brouillon brut, une ligne par segment, que la plupart des outils de transcription vous laissent.
euh alors ouais genre tout le monde te dit toujours de commencer par ta meilleure phrase tu vois mais euh franchement si tu donnes toute la réponse dès la première seconde ben du coup en fait y a plus aucune raison de continuer à regarder voilà donc l'accroche c'est pas genre le truc le plus malin que tu dis c'est plutôt comme une boucle que t'ouvres et que les gens ont besoin de refermer et euh c'est ça en fait qui retient vraiment les gens quoi
BrutDes tours « qui a dit quoi » avec horodatage de début/fin et temps de parole par locuteur
Renommez les étiquettes génériques en de vrais noms, en ligne – sans rien relancer
Export JSON structuré – segments, étiquettes de locuteur, horodatages et temps de parole pour votre pipeline
Plus de 99 langues, détectées automatiquement · nous n'entraînons jamais nos modèles sur votre audio · le crédit n'expire jamais
Compatible avec les plateformes où vous vivez.
Collez un lien depuis YouTube, TikTok, Instagram, Facebook, Spotify ou Apple Podcasts – ou déposez n'importe quel fichier audio ou vidéo. Nous le transcrivons une seule fois, puis vous l'exportez comme votre flux de travail l'exige.
- YouTube
- TikTok
- Spotify
- Apple Podcasts
- ou n'importe quel fichier
Exportez dans n'importe quel format
- TXT
- Markdown
- DOCX
- SRT
- VTT
- JSON
Les horodatages, les libellés d'intervenants et la synchronisation des sous-titres sont conservés dans chaque export.
Transcription par locuteur – vos questions, nos réponses
Qu'est-ce que la transcription par locuteur ?
La transcription par locuteur consiste à séparer un enregistrement selon la personne qui parle – en découpant l'audio en tours de parole et en étiquetant chacun d'eux (Locuteur 1, Locuteur 2…). Elle répond à « qui a parlé quand », distinctement de « ce qui a été dit ». Pepys fait les deux : il sépare les voix et transcrit en une seule passe.
En quoi est-ce différent d'une simple transcription ?
Une simple transcription vous donne les mots. La séparation des voix ajoute la structure par locuteur par-dessus : les limites de chaque tour, une étiquette par voix et le temps de parole total. Un enregistrement à plusieurs voix se lit alors comme un échange attribué plutôt que comme un seul bloc continu.
Quelle est la précision de l'étiquetage des locuteurs ?
Les limites de tours et les étiquettes sont solides sur des voix nettes et distinctes. Des chevauchements importants, des voix quasi identiques ou un audio bruité peuvent brouiller un tour ou deux – les étiquettes restent donc génériques au départ (Locuteur 1, 2…) et vous renommez et corrigez chaque tour en ligne avant l'export.
Est-ce que l'outil m'indique le nom de chaque locuteur ?
La séparation distingue les voix, elle ne reconnaît pas les identités – les intervenants ressortent donc comme Locuteur 1, Locuteur 2, et ainsi de suite. Vous attribuez les vrais noms une seule fois en ligne, et le changement s'applique à tous les tours de cette voix.
Puis-je exporter les données de locuteur en JSON structuré ?
Oui. L'export JSON vous donne chaque segment avec son étiquette de locuteur, ses horodatages de début et de fin et le temps de parole par locuteur, dans un format compatible Whisper que vous pouvez injecter directement dans un script, un outil d'analyse ou un workflow de recherche – ou exportez en TXT, Markdown, DOCX, PDF, SRT ou VTT pour un usage lisible et des sous-titres.
Plus d'outils gratuits
Continuer la lecture
Transcription par locuteur – gratuit pour commencer
Payez à l'usage – les crédits n'expirent jamais, rien à résilier. Ou commencez gratuitement avec 60 minutes, sans carte.