Pepys
12,438,517minutos transcritos

Transcribir audio con varios hablantes

Descubre quién dijo qué – sube un archivo o pega un enlace y obtén una transcripción dividida por hablante, con los turnos marcados y el tiempo de habla de cada voz.

o pega un enlace
InstagramTikTokYouTubeFacebookSpotifyApple Podcasts

Acepta archivos MP3, M4A, WAV, MP4 y otros formatos de audio o video – o un enlace · devuelve una transcripción de quién dijo qué con etiquetas de hablante, marcas de tiempo por turno y tiempo de habla.

Las etiquetas de hablante salen de separar las voces, no de identificarlas – Pepys marca cada voz distinta como Hablante 1, Hablante 2, y así. No reconoce a nadie por su nombre ni por su huella de voz; tú mismo renombras las etiquetas con los nombres reales.

60 min gratis · sin tarjeta · nunca entrenamos con tu audio

PodcasterJournalistContent creatorResearcherStudent
Con la confianza de más de 100k usuariosCalificado con 4.9 de 5 por más de 100k usuarios

¿Qué significa separar a los hablantes de una grabación?

Pepys separa las voces de tu grabación: divide el audio por hablante, etiqueta cada turno (Hablante 1, Hablante 2…) e indica el tiempo de habla de cada uno. Sube un archivo o pega un enlace y obtén una transcripción de quién dijo qué con marcas de tiempo en minutos, en más de 99 idiomas. Tus primeros 60 minutos son gratis, sin tarjeta.

Cómo funciona transcribir audio con varios hablantes

01

Sube el audio o pega un enlace

Arrastra una grabación con varias voces o pega un enlace – cualquier formato, cualquier idioma.

02

Recibe el texto separado por voz

Pepys divide el audio por hablante y etiqueta cada turno, con marcas de tiempo que indican dónde empieza y termina de hablar cada uno.

03

Renombra, revisa y exporta

Cambia las etiquetas genéricas por nombres reales, contrasta los turnos con el audio y exporta a TXT, Markdown, DOCX, PDF, SRT, VTT o JSON estructurado.

Separar las voces responde algo que una transcripción plana no puede: ¿quién está hablando y cuándo? Pepys divide la grabación en turnos por hablante – Hablante 1, Hablante 2, y así – para que una entrevista, una mesa redonda, un grupo focal o un pódcast a dos voces se lea como un ida y vuelta limpio en lugar de un muro de texto sin distinción. Cada turno lleva una marca de inicio y de fin, y obtienes el tiempo de habla total de cada voz para las preguntas que vienen después: quién acaparó la conversación, quién casi no habló y dónde estuvieron los cambios de turno.

Está hecho para quien necesita saber quién dijo qué – investigadores que codifican entrevistas cualitativas, periodistas que atribuyen citas, desarrolladores que envían los turnos a una herramienta de actas o de analítica. Las etiquetas son tuyas para renombrarlas al instante (Hablante 2 pasa a ser "Dra. Okafor"), y cada turno se exporta como JSON estructurado – cada segmento con su hablante, sus marcas de inicio y fin, y el tiempo de habla por voz – o como una transcripción limpia con las etiquetas de hablante. Nunca entrenamos con tu audio y tus créditos nunca caducan.

Párrafos limpios. Sin más eh ni este.

A la izquierda está lo que Pepys te devuelve – párrafos con lógica, sin muletillas, con puntuación y fáciles de leer. A la derecha está el volcado en bruto, una línea por segmento, con el que la mayoría de los transcriptores te dejan.

reel-voiceover.mp4

eh o sea todos te dicen que tienes que tipo arrancar con tu mejor frase no pues la verdad es que si das toda la respuesta en el primer segundo este o sea ya no hay ninguna razón para que alguien siga viendo entonces el gancho no es tipo lo más inteligente que dices es como un bucle que abres y que tienen que cerrar y bueno esa es la parte que de verdad hace que la gente se quede

En bruto
AntesDespués
  • Turnos de quién dijo qué con marcas de inicio y fin y el tiempo de habla de cada hablante

  • Renombra las etiquetas genéricas con nombres reales al instante – sin volver a procesar nada

  • Exportación a JSON estructurado – segmentos, etiquetas de hablante, marcas de tiempo y tiempo de habla para tu pipeline

  • Más de 99 idiomas, detectados automáticamente · nunca entrenamos con tu audio · tus créditos nunca caducan

Funciona con las plataformas donde vives.

Pega un enlace de YouTube, TikTok, Instagram, Facebook, Spotify o Apple Podcasts – o suelta cualquier archivo de audio o video. Lo transcribimos una vez y luego lo exportas como tu flujo de trabajo lo necesite.

  • YouTubeYouTube
  • TikTokTikTok
  • InstagramInstagram
  • FacebookFacebook
  • SpotifySpotify
  • Apple PodcastsApple Podcasts
  • o cualquier archivo

Exporta a cualquier formato

  • TXT
  • Markdown
  • DOCX
  • PDF
  • SRT
  • VTT
  • JSON

Las marcas de tiempo, las etiquetas de hablantes y la sincronización de subtítulos se mantienen en cada exportación.

Transcribir audio con varios hablantes – preguntas, respondidas

¿Qué significa separar a los hablantes de una grabación?

Es dividir una grabación según quién está hablando – segmentar el audio en turnos y etiquetar cada uno (Hablante 1, Hablante 2…). Responde "quién habló y cuándo", aparte de "qué se dijo". Pepys hace ambas cosas: separa las voces y transcribe en un solo paso.

¿En qué se diferencia de una transcripción normal?

Una transcripción normal te da las palabras. La separación de voces añade encima la estructura de hablantes: los límites de cada turno, una etiqueta por voz y los totales de tiempo de habla. Así una grabación con varias personas se lee como un ida y vuelta atribuido en lugar de un solo bloque continuo.

¿Qué tan precisas son las etiquetas de hablante?

Los límites de los turnos y las etiquetas funcionan muy bien con voces limpias y distintas. Mucho solapamiento al hablar, voces casi idénticas o audio con ruido pueden confundir algún turno – por eso las etiquetas empiezan genéricas (Hablante 1, 2…) y tú renombras y corriges cualquier turno al instante antes de exportar.

¿Me dice el nombre de cada hablante?

Separar las voces no reconoce identidades, solo las distingue – por eso los hablantes salen como Hablante 1, Hablante 2, y así. Tú asignas los nombres reales una sola vez y el cambio se aplica a todos los turnos de esa voz.

¿Puedo exportar los datos de los hablantes como JSON estructurado?

Sí. La exportación a JSON te da cada segmento con su etiqueta de hablante, sus marcas de inicio y fin, y el tiempo de habla por voz, en un formato compatible con Whisper que puedes pasar directo a un script, una herramienta de analítica o un flujo de investigación – o exporta a TXT, Markdown, DOCX, PDF, SRT o VTT para uso legible y subtítulos.

Más herramientas gratis

Sigue leyendo

Transcribir audio con varios hablantes – gratis para empezar

Paga según tu uso – los créditos nunca expiran, nada que cancelar. O empieza gratis con 60 minutos, sin tarjeta.