Pepys
12,438,517minuti trascritti

Trascrizione con riconoscimento dei parlanti

Scopri chi dice cosa – carica un file o incolla un link e ricevi una trascrizione divisa per parlante, con i passaggi di turno e il tempo di parola di ogni voce.

o incolla un link
InstagramTikTokYouTubeFacebookSpotifyApple Podcasts

Accetta MP3, M4A, WAV, MP4 e altri file audio o video – oppure un link · restituisce una trascrizione "chi dice cosa" con etichette parlante, timestamp dei turni e tempo di parola.

Le etichette dei parlanti nascono dalla separazione delle voci, non dall'identità – Pepys contrassegna le voci distinte come Parlante 1, Parlante 2 e così via. Non riconosce nessuno per nome o impronta vocale; i nomi veri li assegni tu rinominando le etichette.

60 min gratis · senza carta · non addestriamo mai i modelli sul tuo audio

PodcasterJournalistContent creatorResearcherStudent
Scelto da oltre 100k utentiValutato 4.9 su 5 da oltre 100k utenti

Che cos'è il riconoscimento dei parlanti?

Pepys separa le voci della tua registrazione: divide l'audio per parlante, etichetta ogni turno (Parlante 1, Parlante 2…) e calcola il tempo di parola di ciascuno. Carica un file o incolla un link e ottieni una trascrizione "chi dice cosa" con timestamp al minuto, in oltre 99 lingue. I primi 60 minuti sono gratis, senza carta.

Come funziona trascrizione con riconoscimento dei parlanti

01

Carica l'audio o incolla un link

Trascina una registrazione con più voci o incolla un link – qualsiasi formato, qualsiasi lingua.

02

Ricevi il testo diviso per voce

Pepys segmenta l'audio per parlante ed etichetta ogni turno, con i timestamp che segnano dove ogni voce inizia e finisce.

03

Rinomina, verifica ed esporta

Sostituisci le etichette generiche con i nomi veri, controlla i turni contro l'audio ed esporta in TXT, Markdown, DOCX, PDF, SRT, VTT o JSON strutturato.

Il riconoscimento dei parlanti risponde a una domanda che una trascrizione piatta non coglie: chi sta parlando, e quando? Pepys divide la registrazione in turni di parola – Parlante 1, Parlante 2 e così via – così un'intervista, una tavola rotonda, un focus group o un podcast a due voci si legge come un botta e risposta pulito invece di un muro di testo indistinto. Ogni turno porta con sé un timestamp di inizio e di fine, e ottieni il tempo di parola totale per ogni voce per le domande che contano: chi ha dominato, chi ha parlato a malapena, dove sono avvenuti i passaggi.

È pensato per chiunque debba sapere chi ha detto cosa – ricercatori che codificano interviste qualitative, giornalisti che attribuiscono le citazioni, sviluppatori che inviano i turni di parola a uno strumento di verbali o di analisi. Le etichette le rinomini tu, direttamente nel testo (Parlante 2 diventa "Dott.ssa Conti"), e ogni turno si esporta come JSON strutturato – ogni segmento con il suo parlante, i timestamp di inizio e fine e il tempo di parola per voce – oppure come una trascrizione pulita con le etichette dei parlanti. Non addestriamo mai i nostri modelli sul tuo audio, e il credito non scade mai.

Paragrafi puliti. Niente più ehm e cioè.

A sinistra c'è quello che ti restituisce Pepys – paragrafi logici, senza riempitivi, punteggiati e leggibili. A destra c'è la sbobinatura grezza, una riga per segmento, che la maggior parte dei trascrittori ti lascia tra le mani.

reel-voiceover.mp4

ehm allora tutti continuano a dirti di tipo partire con la battuta migliore no ma cioè se sveli tutta la risposta nel primo secondo insomma non c'è nessun motivo per cui qualcuno continui a guardare quindi l'aggancio non è tipo la cosa più intelligente che dici è cioè un cerchio che apri e che loro devono chiudere ehm ed è quella la parte che tiene incollata la gente

Grezzo
PrimaDopo
  • Turni "chi dice cosa" con timestamp di inizio/fine e tempo di parola per parlante

  • Rinomina le etichette generiche con i nomi veri direttamente nel testo – senza rielaborare nulla

  • Esportazione in JSON strutturato – segmenti, etichette parlante, timestamp e tempo di parola per la tua pipeline

  • Oltre 99 lingue, rilevate in automatico · non addestriamo mai i modelli sul tuo audio · il credito non scade mai

Funziona con le piattaforme in cui vivi.

Incolla un link da YouTube, TikTok, Instagram, Facebook, Spotify o Apple Podcasts – oppure carica un qualsiasi file audio o video. Lo trascriviamo una volta, poi lo esporti come serve al tuo flusso di lavoro.

  • YouTubeYouTube
  • TikTokTikTok
  • InstagramInstagram
  • FacebookFacebook
  • SpotifySpotify
  • Apple PodcastsApple Podcasts
  • o un qualsiasi file

Esporta in qualsiasi formato

  • TXT
  • Markdown
  • DOCX
  • PDF
  • SRT
  • VTT
  • JSON

Timestamp, etichette di chi parla e sincronizzazione dei sottotitoli si mantengono in ogni esportazione.

Trascrizione con riconoscimento dei parlanti – domande, con risposta

Che cos'è il riconoscimento dei parlanti?

Il riconoscimento dei parlanti (speaker diarization) è il processo che divide una registrazione in base a chi parla – segmenta l'audio in turni ed etichetta ciascuno (Parlante 1, Parlante 2…). Risponde al "chi ha parlato e quando", distinto dal "cosa è stato detto". Pepys fa entrambe le cose: separa le voci e trascrive in un solo passaggio.

In cosa è diverso da una trascrizione normale?

Una trascrizione normale ti dà le parole. Il riconoscimento dei parlanti aggiunge sopra la struttura: i confini dei turni, un'etichetta per ogni voce e il tempo di parola totale. Così una registrazione con più voci si legge come un dialogo attribuito invece che come un unico blocco continuo.

Quanto è preciso il riconoscimento delle voci?

I confini dei turni e le etichette sono solidi con voci pulite e distinte. Sovrapposizioni marcate, voci quasi identiche o audio rumoroso possono confondere qualche turno – per questo le etichette partono generiche (Parlante 1, 2…) e tu rinomini e correggi ogni turno direttamente nel testo prima di esportare.

Mi dice il nome di ogni parlante?

Il riconoscimento separa le voci, non identifica le persone – quindi i parlanti escono come Parlante 1, Parlante 2 e così via. Assegni i nomi veri una volta, direttamente nel testo, e la modifica si applica a tutti i turni di quella voce.

Posso esportare i dati dei parlanti come JSON strutturato?

Sì. L'esportazione in JSON ti dà ogni segmento con la sua etichetta parlante, i timestamp di inizio e fine e il tempo di parola per voce, in un formato compatibile con Whisper che puoi passare direttamente a uno script, a uno strumento di analisi o a un flusso di ricerca – oppure esporti in TXT, Markdown, DOCX, PDF, SRT o VTT per l'uso leggibile e per i sottotitoli.

Altri strumenti gratuiti

Continua a leggere

Trascrizione con riconoscimento dei parlanti – inizi gratis

Paghi in base al consumo – i crediti non scadono mai, niente da disdire. Oppure inizia gratis con 60 minuti, senza carta.