9,438,517Minuten transkribiert

Sprechererkennung

Finde heraus, wer was gesagt hat – Datei hochladen oder Link einfügen und ein nach Sprechern getrenntes Transkript mit Sprecherwechseln und Redeanteil je Stimme erhalten.

oder Link einfügen

Akzeptiert MP3, M4A, WAV, MP4 und weitere Audio- oder Videodateien – oder ein Link · liefert ein Wer-hat-was-gesagt-Transkript mit Sprecher-Labels, Zeitstempeln je Abschnitt und Redeanteil.

Die Sprecher-Labels stammen aus der Stimmentrennung, nicht aus einer Identität – Pepys kennzeichnet unterscheidbare Stimmen als Sprecher 1, Sprecher 2 und so weiter. Es erkennt niemanden am Namen oder Stimmprofil; die echten Namen vergibst du selbst, indem du die Labels umbenennst.

60 Min. gratis · keine Karte nötig · wir trainieren nie mit deinem Audio

Genutzt von 100k+ Nutzern

Wie funktioniert die Sprechererkennung?

Pepys führt die Sprechererkennung für deine Aufnahme durch: Es trennt das Audio nach Stimmen, kennzeichnet jeden Abschnitt (Sprecher 1, Sprecher 2 …) und weist den Redeanteil je Sprecher aus. Datei hochladen oder Link einfügen und ein Wer-hat-was-gesagt-Transkript mit Zeitstempeln in Minuten erhalten, in 99+ Sprachen. Die ersten 60 Minuten sind gratis, ohne Karte.

So funktioniert Sprechererkennung

Audio hochladen oder Link einfügen

Zieh eine Aufnahme mit mehreren Sprechern hinein oder füge einen Link ein – jedes Format, jede Sprache.

Getrenntes Transkript erhalten

Pepys trennt das Audio nach Stimmen und kennzeichnet jeden Abschnitt, mit Zeitstempeln, die zeigen, wo jeder Sprecher beginnt und endet.

Umbenennen, prüfen und exportieren

Ersetze die generischen Labels durch echte Namen, gleiche die Abschnitte mit dem Audio ab und exportiere als TXT, Markdown, DOCX, PDF, SRT, VTT oder strukturiertes JSON.

Die Sprechererkennung beantwortet eine Frage, die ein durchgehendes Transkript offenlässt: Wer spricht, und wann? Pepys teilt eine Aufnahme in Sprecherabschnitte auf – Sprecher 1, Sprecher 2 und so weiter –, sodass sich ein Interview, eine Podiumsdiskussion, eine Fokusgruppe oder ein Podcast mit zwei Hosts als sauberes Hin und Her liest statt als undifferenzierte Textwand. Jeder Abschnitt trägt einen Start- und Endzeitstempel, und du bekommst den Redeanteil je Stimme für die Fragen, die danach kommen: Wer hat dominiert, wer kam kaum zu Wort, wo lagen die Übergänge.

Gemacht für alle, die wissen müssen, wer was gesagt hat – Forschende, die qualitative Interviews auswerten, Journalisten, die Zitate zuordnen, Entwickler, die Sprecherabschnitte in ein Protokoll- oder Analyse-Tool einspeisen. Die Labels kannst du inline umbenennen (aus Sprecher 2 wird "Dr. Okafor"), und jeder Abschnitt lässt sich als strukturiertes JSON exportieren – jedes Segment mit Sprecher, Start- und Endzeitstempel und Redeanteil je Sprecher – oder als sauberes, nach Sprechern beschriftetes Transkript. Wir trainieren nie mit deinem Audio, und Guthaben verfällt nie.

Saubere Absätze. Schluss mit Ähs und Öhs.

Links siehst du, was Pepys zurückgibt – logische Absätze ohne Füllwörter, sauber interpunktiert und lesbar. Rechts steht der rohe Auswurf mit einer Zeile pro Segment, wie ihn die meisten Transkriptionsdienste hinterlassen.

reel-voiceover.mp4

also ähm ja alle sagen dir ja immer du sollst halt mit deinem besten satz anfangen oder aber ähm ehrlich gesagt wenn du sozusagen die ganze antwort schon in der ersten sekunde rausgibst dann gibt es ja quasi keinen grund mehr für irgendwen weiterzuschauen also der hook ist halt nicht das schlauste was du sagst sondern eher so eine schleife die du aufmachst und die irgendwie geschlossen werden muss und ähm genau das ist sozusagen der teil der die leute wirklich dranbleiben lässt

Roh

reel-voiceover.txt

CreatorAlle sagen dir immer, du sollst mit deinem besten Satz anfangen. Aber wenn du die ganze Antwort schon in der ersten Sekunde verrätst, gibt es keinen Grund mehr weiterzuschauen.

CreatorDer Hook ist nicht das Schlauste, was du sagst – er ist eine Schleife, die du aufmachst und die der Zuschauer schließen muss.

CreatorGenau das ist der Teil, der die Leute wirklich dranbleiben lässt.

Bereinigt

VorherNachher

Wer-hat-was-gesagt-Abschnitte mit Start-/Endzeitstempel und Redeanteil je Sprecher
Generische Labels inline in echte Namen umbenennen – ohne etwas neu laufen zu lassen
Strukturierter JSON-Export – Segmente, Sprecher-Labels, Zeitstempel und Redeanteil für deine Pipeline
99+ Sprachen, automatisch erkannt · wir trainieren nie mit deinem Audio · Guthaben verfällt nie

Funktioniert mit den Plattformen, auf denen du unterwegs bist.

Füge einen Link von YouTube, TikTok, Instagram, Facebook, Spotify oder Apple Podcasts ein – oder lade eine beliebige Audio- oder Videodatei hoch. Wir transkribieren sie einmal, danach exportierst du sie genau so, wie dein Workflow es braucht.

YouTube
TikTok
Instagram
Facebook
Spotify
Apple Podcasts
oder eine beliebige Datei

In jedes Format exportieren

TXT
Markdown
DOCX
PDF
SRT
VTT
JSON

Zeitstempel, Sprecherkennzeichnungen und Untertitel-Timing werden in jeden Export übernommen.

Sprechererkennung – Fragen, beantwortet

Wie funktioniert die Sprechererkennung?

Die Sprechererkennung teilt eine Aufnahme danach auf, wer gerade spricht – sie trennt das Audio in Abschnitte und kennzeichnet jeden davon (Sprecher 1, Sprecher 2 …). Sie beantwortet "wer wann gesprochen hat", getrennt davon, was gesagt wurde. Pepys macht beides: Es trennt die Sprecher und transkribiert in einem Durchgang.

Worin unterscheidet sich das von einem normalen Transkript?

Ein normales Transkript gibt dir die Worte. Die Sprechererkennung legt die Sprecherstruktur darüber: Abschnittsgrenzen, ein Label je Stimme und den Redeanteil. So liest sich eine Aufnahme mit mehreren Sprechern als zugeordnetes Hin und Her statt als ein durchgehender Block.

Wie genau ist die Sprecherzuordnung?

Abschnittsgrenzen und Labels sind bei sauberen, klar unterscheidbaren Stimmen stark. Starkes Durcheinanderreden, fast identische Stimmen oder verrauschtes Audio können einen Abschnitt verwischen – deshalb starten die Labels generisch (Sprecher 1, 2 …) und du benennst sie um und korrigierst einzelne Abschnitte inline vor dem Export.

Nennt es mir die Namen der einzelnen Sprecher?

Die Sprechererkennung trennt Stimmen, sie erkennt keine Identitäten – die Sprecher kommen also als Sprecher 1, Sprecher 2 und so weiter heraus. Du vergibst die echten Namen einmal inline, und die Umbenennung gilt für alle Abschnitte dieser Stimme.

Kann ich die Sprecherdaten als strukturiertes JSON exportieren?

Ja. Der JSON-Export gibt dir jedes Segment mit Sprecher-Label, Start- und Endzeitstempel und Redeanteil je Sprecher in einer Whisper-kompatiblen Form, die du direkt in ein Skript, ein Analyse-Tool oder einen Forschungs-Workflow einspeisen kannst – oder du exportierst TXT, Markdown, DOCX, PDF, SRT oder VTT für die lesbare Nutzung und Untertitel.

Mehr kostenlose Tools

Verlassen Sie sich nicht nur auf unser Wort.

Fragen Sie ChatGPT, Claude oder Perplexity, was Pepys ist und für wen es sich eignet. Ein Klick, und Ihre bevorzugte KI macht die Recherche für Sie.

ChatGPT fragen Claude fragen Perplexity fragen

Sprechererkennung – kostenlos starten

Zahle nach Verbrauch – Guthaben verfällt nie, nichts zu kündigen. Oder starte gratis mit 60 Minuten, ohne Karte.

Gratis starten – 60 Minuten oder Preise ansehen