Trascrizione con riconoscimento dei parlanti
Scopri chi dice cosa – carica un file o incolla un link e ricevi una trascrizione divisa per parlante, con i passaggi di turno e il tempo di parola di ogni voce.
Accetta MP3, M4A, WAV, MP4 e altri file audio o video – oppure un link · restituisce una trascrizione "chi dice cosa" con etichette parlante, timestamp dei turni e tempo di parola.
Le etichette dei parlanti nascono dalla separazione delle voci, non dall'identità – Pepys contrassegna le voci distinte come Parlante 1, Parlante 2 e così via. Non riconosce nessuno per nome o impronta vocale; i nomi veri li assegni tu rinominando le etichette.
60 min gratis · senza carta · non addestriamo mai i modelli sul tuo audio
Che cos'è il riconoscimento dei parlanti?
Pepys separa le voci della tua registrazione: divide l'audio per parlante, etichetta ogni turno (Parlante 1, Parlante 2…) e calcola il tempo di parola di ciascuno. Carica un file o incolla un link e ottieni una trascrizione "chi dice cosa" con timestamp al minuto, in oltre 99 lingue. I primi 60 minuti sono gratis, senza carta.
Come funziona trascrizione con riconoscimento dei parlanti
Carica l'audio o incolla un link
Trascina una registrazione con più voci o incolla un link – qualsiasi formato, qualsiasi lingua.
Ricevi il testo diviso per voce
Pepys segmenta l'audio per parlante ed etichetta ogni turno, con i timestamp che segnano dove ogni voce inizia e finisce.
Rinomina, verifica ed esporta
Sostituisci le etichette generiche con i nomi veri, controlla i turni contro l'audio ed esporta in TXT, Markdown, DOCX, PDF, SRT, VTT o JSON strutturato.
Il riconoscimento dei parlanti risponde a una domanda che una trascrizione piatta non coglie: chi sta parlando, e quando? Pepys divide la registrazione in turni di parola – Parlante 1, Parlante 2 e così via – così un'intervista, una tavola rotonda, un focus group o un podcast a due voci si legge come un botta e risposta pulito invece di un muro di testo indistinto. Ogni turno porta con sé un timestamp di inizio e di fine, e ottieni il tempo di parola totale per ogni voce per le domande che contano: chi ha dominato, chi ha parlato a malapena, dove sono avvenuti i passaggi.
È pensato per chiunque debba sapere chi ha detto cosa – ricercatori che codificano interviste qualitative, giornalisti che attribuiscono le citazioni, sviluppatori che inviano i turni di parola a uno strumento di verbali o di analisi. Le etichette le rinomini tu, direttamente nel testo (Parlante 2 diventa "Dott.ssa Conti"), e ogni turno si esporta come JSON strutturato – ogni segmento con il suo parlante, i timestamp di inizio e fine e il tempo di parola per voce – oppure come una trascrizione pulita con le etichette dei parlanti. Non addestriamo mai i nostri modelli sul tuo audio, e il credito non scade mai.
Paragrafi puliti. Niente più ehm e cioè.
A sinistra c'è quello che ti restituisce Pepys – paragrafi logici, senza riempitivi, punteggiati e leggibili. A destra c'è la sbobinatura grezza, una riga per segmento, che la maggior parte dei trascrittori ti lascia tra le mani.
ehm allora sì tutti continuano a dirti di tipo partire con la battuta migliore no ma cioè se sveli tutta la risposta nel primo secondo insomma non c'è nessun motivo per cui qualcuno continui a guardare quindi l'aggancio non è tipo la cosa più intelligente che dici è cioè un cerchio che apri e che loro devono chiudere ehm ed è quella la parte che tiene incollata la gente
GrezzoTurni "chi dice cosa" con timestamp di inizio/fine e tempo di parola per parlante
Rinomina le etichette generiche con i nomi veri direttamente nel testo – senza rielaborare nulla
Esportazione in JSON strutturato – segmenti, etichette parlante, timestamp e tempo di parola per la tua pipeline
Oltre 99 lingue, rilevate in automatico · non addestriamo mai i modelli sul tuo audio · il credito non scade mai
Funziona con le piattaforme in cui vivi.
Incolla un link da YouTube, TikTok, Instagram, Facebook, Spotify o Apple Podcasts – oppure carica un qualsiasi file audio o video. Lo trascriviamo una volta, poi lo esporti come serve al tuo flusso di lavoro.
- YouTube
- TikTok
- Spotify
- Apple Podcasts
- o un qualsiasi file
Esporta in qualsiasi formato
- TXT
- Markdown
- DOCX
- SRT
- VTT
- JSON
Timestamp, etichette di chi parla e sincronizzazione dei sottotitoli si mantengono in ogni esportazione.
Trascrizione con riconoscimento dei parlanti – domande, con risposta
Che cos'è il riconoscimento dei parlanti?
Il riconoscimento dei parlanti (speaker diarization) è il processo che divide una registrazione in base a chi parla – segmenta l'audio in turni ed etichetta ciascuno (Parlante 1, Parlante 2…). Risponde al "chi ha parlato e quando", distinto dal "cosa è stato detto". Pepys fa entrambe le cose: separa le voci e trascrive in un solo passaggio.
In cosa è diverso da una trascrizione normale?
Una trascrizione normale ti dà le parole. Il riconoscimento dei parlanti aggiunge sopra la struttura: i confini dei turni, un'etichetta per ogni voce e il tempo di parola totale. Così una registrazione con più voci si legge come un dialogo attribuito invece che come un unico blocco continuo.
Quanto è preciso il riconoscimento delle voci?
I confini dei turni e le etichette sono solidi con voci pulite e distinte. Sovrapposizioni marcate, voci quasi identiche o audio rumoroso possono confondere qualche turno – per questo le etichette partono generiche (Parlante 1, 2…) e tu rinomini e correggi ogni turno direttamente nel testo prima di esportare.
Mi dice il nome di ogni parlante?
Il riconoscimento separa le voci, non identifica le persone – quindi i parlanti escono come Parlante 1, Parlante 2 e così via. Assegni i nomi veri una volta, direttamente nel testo, e la modifica si applica a tutti i turni di quella voce.
Posso esportare i dati dei parlanti come JSON strutturato?
Sì. L'esportazione in JSON ti dà ogni segmento con la sua etichetta parlante, i timestamp di inizio e fine e il tempo di parola per voce, in un formato compatibile con Whisper che puoi passare direttamente a uno script, a uno strumento di analisi o a un flusso di ricerca – oppure esporti in TXT, Markdown, DOCX, PDF, SRT o VTT per l'uso leggibile e per i sottotitoli.
Altri strumenti gratuiti
Continua a leggere
Trascrizione con riconoscimento dei parlanti – inizi gratis
Paghi in base al consumo – i crediti non scadono mai, niente da disdire. Oppure inizia gratis con 60 minuti, senza carta.