Was ist Transkription? Gesprochenes als Text, verständlich erklärt

Interview, Meeting, Podcast oder Sprachnachricht: Transkription macht aus einer Aufnahme einen lesbaren Text, den du durchsuchen, zitieren und weitergeben kannst.

Transkription bezeichnet das Umwandeln von gesprochener Sprache aus einer Audio- oder Videoaufnahme in geschriebenen Text. Gemeint ist hier die mediale Transkription, nicht der biologische Begriff. Sie lässt sich manuell durch Abtippen oder automatisch per KI erledigen und macht Interviews, Meetings oder Podcasts durchsuchbar, zitierbar und zugänglich.

Jetzt Aufnahme transkribieren

or paste a link

Wenn von Transkription die Rede ist, meinen die meisten Menschen im Alltag genau eine Sache: eine gesprochene Aufnahme in geschriebenen Text zu bringen. Aus einer Interviewdatei, einer Meeting-Aufzeichnung oder einer langen Sprachnachricht wird ein Dokument, das man lesen, durchsuchen und zitieren kann. Diese Seite erklärt genau diesen medialen Begriff und nicht den gleichlautenden Fachbegriff aus der Molekularbiologie.

Wir schauen uns an, was Transkription genau bedeutet, welche Arten es gibt, wie sie sich von Untertiteln und Übersetzung unterscheidet und wofür man sie in der Praxis braucht. So weißt du am Ende, wann du eine Transkription brauchst und worauf es dabei ankommt.

Definition: gesprochene Sprache wird zu geschriebenem Text

Transkription ist das schriftliche Festhalten von gesprochener Sprache. Die Grundlage ist immer eine Aufnahme, also eine Audio- oder Videodatei, und das Ergebnis ist ein Text, der wiedergibt, was gesagt wurde. Der Text kann dabei jedes gesprochene Wort enthalten oder in eine geglättete, gut lesbare Form gebracht sein.

Wichtig ist die Abgrenzung zum Wortstamm: Transkribieren heißt hier schlicht "in Schrift übertragen". Es geht nicht um Übersetzung in eine andere Sprache und auch nicht um den Begriff aus der Zellbiologie, bei dem Erbinformation von DNA in RNA umgeschrieben wird. In diesem Ratgeber geht es ausschließlich um Sprache aus Medien, also um Aufnahmen von Menschen, die sprechen.

Erstellt wird eine Transkription entweder manuell, indem jemand die Aufnahme anhört und mittippt, oder automatisch, indem eine Spracherkennung das Audio verarbeitet und den Text ausgibt. Manuelle Transkription ist genau, aber langsam; für eine Stunde Gespräch rechnet man je nach Qualität mehrere Stunden Tipparbeit. Eine KI liefert denselben Rohtext in wenigen Minuten, den man anschließend nur noch korrigiert.

Die wichtigsten Arten der Transkription

Man unterscheidet vor allem danach, wie nah der Text am gesprochenen Wort bleibt. Die wörtliche oder verbatim Transkription hält alles fest, auch Versprecher, Wiederholungen, Fülllaute wie "ähm" und abgebrochene Sätze. Sie ist üblich in der qualitativen Forschung, bei Gericht und überall dort, wo es auf den exakten Wortlaut ankommt.

Die geglättete oder lesbare Transkription lässt Fülllaute und offensichtliche Versprecher weg und macht aus dem Gesprochenen einen sauberen, flüssigen Text. Diese Form eignet sich für Protokolle, Artikel, Untertitel-Vorlagen und alles, was am Ende gut lesbar sein soll.

Eine dritte Variante ist die zusammenfassende Transkription, bei der nur die inhaltlich wichtigen Aussagen festgehalten werden. Sie ist keine vollständige Wiedergabe, sondern eine verdichtete Mitschrift, etwa für Meeting-Notizen. Quer dazu gibt es Zusatzebenen wie Sprecherkennzeichnung (wer hat was gesagt) und Zeitstempel (an welcher Stelle der Aufnahme eine Aussage fällt).

Transkription, Untertitel und Übersetzung sind nicht dasselbe

Diese drei Begriffe werden oft vermischt, meinen aber Verschiedenes. Eine Transkription ist der fortlaufende Text einer Aufnahme in derselben Sprache. Sie steht für sich und lässt sich lesen, durchsuchen oder in ein Protokoll einbauen.

Untertitel sind eine bestimmte Aufbereitung dieses Textes für die Anzeige im Video. Der Transkriptionstext wird dafür in kurze, zeitlich passende Blöcke geschnitten, damit er synchron zum Bild eingeblendet werden kann. Untertitel bauen also auf einer Transkription auf, sind aber an feste Zeitfenster und Formate wie SRT oder VTT gebunden. Untertitel in derselben Sprache nennt man auch Captions, sie richten sich unter anderem an gehörlose und schwerhörige Zuschauer.

Übersetzung schließlich ist der Wechsel in eine andere Sprache. Ein deutsches Interview zu transkribieren liefert einen deutschen Text; erst ein weiterer Schritt macht daraus einen englischen oder spanischen. Kurz gesagt: Transkription bleibt in der Ausgangssprache, Untertitel formatieren den Text fürs Video, Übersetzung wechselt die Sprache.

Wofür man transkribiert: typische Anwendungsfälle

In Interviews und in der qualitativen Forschung ist die Transkription die Arbeitsgrundlage. Erst als Text lassen sich Aussagen codieren, vergleichen und wörtlich zitieren, und mit Sprecherkennzeichnung ist klar, von wem eine Aussage stammt.

Im Journalismus und bei Meetings ersetzt die Transkription das hektische Mitschreiben. Man bekommt das vollständige Protokoll, kann jede Passage per Stichwort finden und dank Zeitstempel direkt zur richtigen Stelle springen, statt die Aufnahme erneut abzuhören.

Auch für Podcasts, Vorlesungen und Videos ist Transkription der Ausgangspunkt: Aus dem Text entstehen Show-Notes, Blogartikel, durchsuchbare Archive und Untertitel. Und Transkription ist ein Baustein der Barrierefreiheit, weil geschriebener Text Inhalte für Menschen zugänglich macht, die lieber lesen oder nicht gut hören.

Was eine gute Transkription ausmacht

Der wichtigste Faktor ist die Qualität der Aufnahme. Nahe am Mikrofon aufgenommene Stimmen, wenig Hintergrundgeräusch und Sprecher, die sich nicht ins Wort fallen, ergeben einen Text, der kaum Korrektur braucht. Hall, Musik oder ein weit entferntes Mikrofon führen dagegen zu mehr Fehlern, egal ob Mensch oder KI transkribiert.

Nützlich wird eine Transkription vor allem durch die Zusatzebenen. Sprecherkennzeichnung trennt sauber, wer was gesagt hat, Zeitstempel führen dich zur genauen Fundstelle, und eine automatische Zusammenfassung mit Kapiteln verschafft dir in Sekunden den Überblick über eine lange Aufnahme. Bei Pepys kannst du zusätzlich direkt mit dem Transkript chatten und etwa fragen, was beschlossen wurde oder was eine bestimmte Person gesagt hat.

Pepys transkribiert in über 99 Sprachen und rechnet nach dem Prinzip: Guthaben einmal kaufen, es verfällt nie, ab einem niedrigen Preis pro Stunde. Deine Aufnahmen und Texte werden nie zum Training von KI verwendet, auf Wunsch löscht die automatische Löschung deine Dateien nach getaner Arbeit. Die ersten 60 Minuten sind gratis, ganz ohne Kreditkarte.

Related tools

Häufige Fragen zur Transkription

Was bedeutet Transkription einfach erklärt?

Transkription bedeutet, eine gesprochene Aufnahme in geschriebenen Text zu übertragen. Aus einem Interview, Meeting oder Podcast wird ein Dokument in derselben Sprache, das du lesen, durchsuchen und zitieren kannst. Es geht dabei um Sprache aus Medien, nicht um den biologischen Fachbegriff.

Was ist der Unterschied zwischen Transkription und Untertiteln?

Eine Transkription ist der fortlaufende Text einer Aufnahme. Untertitel bereiten diesen Text fürs Video auf: Er wird in kurze, zeitlich passende Blöcke geschnitten und synchron zum Bild eingeblendet, oft im SRT- oder VTT-Format. Untertitel bauen also auf einer Transkription auf.

Ist Transkription dasselbe wie Übersetzung?

Nein. Transkription bleibt in der Ausgangssprache und hält nur fest, was gesprochen wurde. Übersetzung wechselt in eine andere Sprache. Ein deutsches Interview zu transkribieren ergibt einen deutschen Text; ein englischer oder spanischer entsteht erst in einem weiteren Schritt.

Welche Arten der Transkription gibt es?

Man unterscheidet die wörtliche (verbatim) Transkription, die alles inklusive Fülllauten festhält, die geglättete Transkription mit sauberem, lesbarem Text und die zusammenfassende Transkription, die nur die wichtigsten Aussagen wiedergibt. Zusätzlich gibt es Sprecherkennzeichnung und Zeitstempel.

Wie erstellt man eine Transkription?

Manuell hörst du die Aufnahme an und tippst mit, was genau, aber zeitaufwendig ist. Automatisch verarbeitet eine Spracherkennung das Audio und liefert den Text in Minuten. Bei Pepys lädst du die Datei hoch, wählst die Sprache und erhältst ein Transkript mit Sprechern, Zeitstempeln und Zusammenfassung.

Verlassen Sie sich nicht nur auf unser Wort.

Fragen Sie ChatGPT, Claude oder Perplexity, was Pepys ist und für wen es sich eignet. Ein Klick, und Ihre bevorzugte KI macht die Recherche für Sie.

ChatGPT fragen Claude fragen Perplexity fragen