Die Aufnahme entscheidet über 80 % deiner Genauigkeit
Kein Tool kann transkribieren, was das Mikrofon nie eingefangen hat. Der größte Hebel für die Transkript-Qualität ist nicht die Software – es ist das Audio, das hineingeht. Bei einem Interview vor Ort platzierst du ein Aufnahmegerät nah an jeder Person, weg von harten Flächen, die dröhnen, und fern von Lüftungsschlitzen, Kühlschränken und der Espressomaschine im Café. Ein Lavalier-Mikro für 30 Euro am Rever schlägt ein Handy quer über dem Tisch jedes Mal.
Bei Remote-Interviews nimmst du jede Seite auf einem eigenen Kanal auf, wenn deine Plattform das erlaubt. Zooms Funktion "separate Audiodatei für jeden Teilnehmer aufzeichnen" und Riversides lokale Spur-pro-Person liefern dir isolierte Sprecher, was die Diarisierung (Sprechermarkierung) deutlich sauberer macht – das Tool muss nicht raten, wer spricht, wenn zwei Stimmen sich überlagern. Wenn du nur eine einzige Mischdatei bekommst, ist das in Ordnung; rechne dann nur damit, mehr Sprecherwechsel von Hand zu korrigieren.
Bevor du startest, sprich Namen und Datum jeder Person ins Mikrofon. Das klingt umständlich, aber es versieht deine Einwilligung mit einem Zeitstempel, verankert, wer "Sprecher 1" ist, und erspart dir das erneute Anhören, um herauszufinden, welche Stimme die Quelle ist und welche du selbst bist.
Warum ein KI-Erstdurchlauf das Tippen schlägt – und wo nicht
Ein Transkript von Hand zu tippen dauert rund das Vier- bis Sechsfache der Audiolänge: Ein einstündiges Interview ist ein halber Tag an der Tastatur. Ein KI-Erstdurchlauf macht aus dieser Stunde ein paar Minuten Verarbeitung plus eine gezielte Nachbearbeitung, und moderne Spracherkennung ist genau genug, dass du redigierst, statt neu zu transkribieren. Bei den meisten Interviews änderst du eine Handvoll Wörter pro Minute, nicht ganze Sätze.
Wo die KI dich noch braucht: Eigennamen (Personen, Firmen, Ortsnamen), Fachjargon und Abkürzungen, schnell gesprochene Zahlen und Stellen, an denen zwei Leute gleichzeitig reden. Genau das sind die Punkte, die für ein belegbares Zitat am meisten zählen – der richtige Ablauf ist also, die Maschine den Großteil erledigen zu lassen und deine Aufmerksamkeit auf die tragenden 5 % zu richten.
Wenn eine Passage im Audio wirklich unklar ist, markiere sie mit [unverständlich] und dem Zeitstempel, statt zu raten. Eine markierte Lücke ist ehrlich; ein selbstbewusst falsches Zitat ist eine Richtigstellung, die nur darauf wartet zu passieren.
Wörtlich, geglättet oder lesbar?
Entscheide deinen Stil, bevor du redigierst, denn er verändert jede Zeile. Strikt wörtlich behält jedes "ähm", jeden Versprecher und jede Wiederholung – das willst du für Diskursanalyse, juristische Kontexte oder wenn es darauf ankommt, wie etwas gesagt wurde. Geglättet wörtlich streicht Füllwörter und Stottern, behält aber die tatsächlichen Worte und die Grammatik der sprechenden Person – der Standard für die meiste journalistische und Forschungsarbeit. Lesbar wörtlich glättet die Grammatik leicht, damit ein Zitat im Druck flüssig liest, ohne die Bedeutung zu ändern.
Wähle einen Stil und wende ihn konsequent an. Der schnellste Weg ist, mit einem sauberen, sprecher-markierten Entwurf zu beginnen und dann für die Zitate, die du wirklich veröffentlichst, auf deinen gewählten Stil zu straffen. Poliere nicht das ganze Transkript auf Veröffentlichungsqualität – das meiste davon wirst du nie zitieren. Stecke die Mühe in die Zeilen, die in den Text wandern.
Was auch immer du wählst: Korrigiere nie stillschweigend einen Sachfehler, den eine Quelle gemacht hat. Sagt sie das falsche Jahr, behält das Zitat das falsche Jahr; du löst das mit einem [sic] oder einer Umschreibung, nicht mit einer heimlichen Änderung.
Behalte Zeitstempel – sie sind dein Prüfpfad
Ein Transkript mit Zeitstempeln ist der Unterschied zwischen "Ich glaube, sie hat das gesagt" und "sie sagte es bei 14:32". Bei jedem Zitat, das du veröffentlichst, willst du direkt zum Audio zurückspringen und es im Kontext hören, bevor es rausgeht. Zeitstempel auf Wort- oder Satzebene lassen dich in Sekunden stichprobenartig prüfen, statt herumzuscrubben.
Zeitstempel machen ein langes Interview außerdem navigierbar. Nutze sie, um schnell einen Index der wichtigen Momente anzulegen – die Antwort, an der die Geschichte kippt, die Zahl, mit der du aufmachst, die Zeile, die du für die Schlagzeile ziehst – damit du beim Schreiben zu diesen Punkten springst, statt 9.000 Wörter neu zu lesen.
Wenn du kollaborierst oder gegenrecherchierst, teile das Transkript mit erhaltenen Zeitstempeln. Wer als Faktenchecker die exakte Zeile hören kann, arbeitet weit schneller und vertraut dem Zitat mehr als jemand, der nur auf den Text starrt.
Einwilligung, sensible Quellen und Speicherung wie ein Profi handhaben
Hol dir die Einwilligung zur Aufnahme dokumentiert, idealerweise im Audio selbst festgehalten. Aufnahmegesetze sind unterschiedlich – in Deutschland gilt im Grundsatz, dass das Aufzeichnen vertraulich gesprochener Worte ohne Einwilligung strafbar sein kann, und andere Länder regeln es wieder anders – also frag im Zweifel und hol dir ein klares Ja, bevor es inhaltlich losgeht.
Bei sensiblem oder vertraulichem Material achte darauf, wo Audio und Transkript liegen. Nutze ein Tool, das deine Dateien nicht für KI-Training verwendet, das Löschen von Aufnahmen nach der Verarbeitung erlaubt und sie nicht heimlich aufbewahrt. Pepys trainiert nie mit deinem Audio oder Text, und du kannst Dateien nach der Transkription automatisch löschen lassen.
Anonymisiere im Transkript selbst, wenn eine Quelle Schutz braucht: Ersetze Namen schon beim Bereinigen des Entwurfs durch eine Rollenbezeichnung und bewahre die nicht geschwärzte Urfassung an einem zugriffsgeschützten Ort auf. Verschicke das rohe Transkript nicht per E-Mail herum, wenn ein Name jemanden gefährden könnte.