Przewodnik

Jak transkrybować wywiad

Praktyczny poradnik dla dziennikarzy, badaczy i wszystkich, którym potrzebne są dokładne, możliwe do przypisania cytaty – a nie ściana domysłów.

Krótka odpowiedź

Żeby transkrybować wywiad, zacznij od czystego nagrania, a potem wgraj je do narzędzia transkrypcyjnego, które w kilka minut zwróci szkic z etykietami mówców i znacznikami czasu. Przeczytaj szkic, słuchając nagrania, popraw nazwiska, żargon i te cytaty, które naprawdę opublikujesz, i zachowaj znaczniki czasu, żeby móc sprawdzić każdą linijkę. Pierwsze przejście zostawione AI, a dopracowanie zrobione ręcznie jest znacznie szybsze niż pisanie od zera – i dokładniejsze tam, gdzie to się liczy.

Nagranie decyduje o 80% twojej dokładności

Żadne narzędzie nie przepisze tego, czego mikrofon nigdy nie zarejestrował. Największy wpływ na jakość transkrypcji ma nie oprogramowanie – tylko dźwięk, który do niego trafia. Przy wywiadzie na żywo ustaw rejestrator blisko każdej osoby, z dala od twardych powierzchni, które dudnią, i daleko od kratek wentylacyjnych, lodówek i kawiarnianego ekspresu do espresso. Mikrofon krawatowy za 100 złotych przypięty do klapy bije telefon leżący po drugiej stronie stołu za każdym razem.

Przy wywiadach zdalnych nagrywaj każdą stronę na osobnym kanale, jeśli twoja platforma na to pozwala. Funkcja Zooma "nagrywaj osobny plik audio dla każdego uczestnika" i lokalne nagrywanie ścieżka-na-osobę w Riverside dają ci odizolowanych mówców, dzięki czemu diaryzacja (oznaczanie mówców) jest znacznie czystsza – narzędzie nie musi zgadywać, kto mówi, gdy dwie osoby mówią równocześnie. Jeśli masz tylko jeden zmiksowany plik, to też w porządku; po prostu licz się z poprawianiem większej liczby zmian mówcy ręcznie.

Zanim zaczniesz, wypowiedz do nagrania imię każdej osoby i datę. Brzmi to drobiazgowo, ale opatruje twoją zgodę znacznikiem czasu, ustala, kim jest "Mówca 1", i oszczędza ci ponownego odsłuchiwania, żeby ustalić, który głos należy do źródła, a który do ciebie.

Dlaczego pierwsze przejście AI bije pisanie ręczne – i gdzie nie bije

Pisanie transkrypcji ręcznie zajmuje mniej więcej cztery do sześciu razy tyle, ile trwa nagranie: godzinny wywiad to pół dnia przy klawiaturze. Pierwsze przejście AI zamienia tę godzinę w kilka minut przetwarzania plus skupione dopracowanie, a współczesna zamiana mowy na tekst jest na tyle dokładna, że redagujesz, a nie transkrybujesz na nowo. W większości wywiadów zmienisz kilka słów na minutę, a nie będziesz przebudowywać zdań.

Tam, gdzie AI nadal cię potrzebuje: nazwy własne (nazwiska, firmy, nazwy miejsc), żargon branżowy i skróty, szybko wypowiadane liczby oraz fragmenty, w których dwie osoby mówią naraz. To dokładnie te miejsca, które najbardziej liczą się przy cytacie możliwym do przypisania – właściwy tryb pracy to więc pozwolić maszynie ogarnąć większość i poświęcić uwagę tym 5%, które są nośne.

Jeśli jakiś fragment jest w nagraniu naprawdę niejasny, zaznacz go jako [niesłyszalne] ze znacznikiem czasu, zamiast zgadywać. Oznaczona luka jest uczciwa; pewny siebie, lecz błędny cytat to sprostowanie, które tylko czeka, żeby się wydarzyć.

Dosłownie, oczyszczona dosłowność czy czytelnie?

Zdecyduj o stylu, zanim zaczniesz redagować, bo wpływa on na każdą linijkę. Ścisła dosłowność zachowuje każde "yyy", falstart i powtórzenie – tego chcesz przy analizie dyskursu, w kontekście prawnym albo gdy sednem jest to, jak coś zostało powiedziane. Oczyszczona dosłowność usuwa wypełniacze i zacinanie, ale zachowuje rzeczywiste słowa i gramatykę osoby mówiącej – domyślny wybór dla większości dziennikarstwa i badań. Czytelna (inteligentna) dosłowność lekko porządkuje gramatykę, żeby cytat czytał się gładko w druku, nie zmieniając sensu.

Wybierz jeden styl i stosuj go konsekwentnie. Najszybsza droga to zacząć od czystego szkicu z etykietami mówców, a potem – dla cytatów, które naprawdę opublikujesz – dociągnąć je do wybranego stylu. Nie dopracowuj całej transkrypcji do jakości publikacyjnej – większości i tak nigdy nie zacytujesz. Włóż wysiłek w linijki, które trafią do tekstu.

Cokolwiek wybierzesz, nigdy nie poprawiaj po cichu rzeczowej pomyłki, którą popełniło źródło. Jeśli ktoś poda zły rok, cytat zachowuje zły rok; rozwiązujesz to przez [sic] albo parafrazę, a nie cichą edycję.

Zachowaj znaczniki czasu – to twój ślad audytowy

Transkrypcja ze znacznikami czasu to różnica między "chyba tak powiedziała" a "powiedziała to o 14:32". Przy każdym publikowanym cytacie chcesz móc wrócić prosto do nagrania i usłyszeć go w kontekście, zanim pójdzie w świat. Znaczniki czasu na poziomie słowa lub zdania pozwalają wyrywkowo sprawdzić fragment w kilka sekund, zamiast przewijać tam i z powrotem.

Znaczniki czasu czynią też długi wywiad nawigowalnym. Użyj ich, żeby szybko zbudować indeks ważnych momentów – odpowiedzi, w której zwrot bierze historia, liczby, od której zaczniesz, linijki, którą wyciągniesz na nagłówek – aby przy pisaniu skakać do tych punktów, zamiast czytać na nowo 9000 słów.

Jeśli współpracujesz albo robisz fact-checking, udostępniaj transkrypcję z zachowanymi znacznikami czasu. Osoba sprawdzająca fakty, która może usłyszeć dokładną linijkę, pracuje znacznie szybciej i bardziej ufa cytatowi niż ktoś, kto wpatruje się w sam tekst.

Zgoda, wrażliwe źródła i przechowywanie po profesjonalnemu

Uzyskaj zgodę na nagrywanie udokumentowaną, najlepiej utrwaloną w samym nagraniu. Przepisy o nagrywaniu są różne – w wielu stanach USA wystarczy zgoda jednej strony, kilka wymaga zgody wszystkich uczestników, a inne kraje regulują to jeszcze inaczej – więc w razie wątpliwości zapytaj i uzyskaj wyraźne "tak", zanim zaczniecie o sprawach merytorycznych.

Przy materiale wrażliwym lub nieoficjalnym pilnuj, gdzie leżą nagranie i transkrypcja. Korzystaj z narzędzia, które nie trenuje AI na twoich plikach, pozwala usunąć nagrania po przetworzeniu i nie zatrzymuje ich po cichu. Pepys nigdy nie trenuje na twoim audio ani tekście, a pliki możesz kazać automatycznie usunąć po transkrypcji.

Anonimizuj w samej transkrypcji, gdy źródło wymaga ochrony: zastępuj nazwiska etykietą roli już przy czyszczeniu szkicu, a nieukrytą wersję wzorcową trzymaj w miejscu z kontrolą dostępu. Nie rozsyłaj surowej transkrypcji mailem, jeśli jakieś nazwisko mogłoby kogoś narazić.

Kroki po kolei

01
Nagraj czysty, rozdzielony dźwięk
Mikrofonuj każdą osobę z bliska, wytłum hałas w tle i nagrywaj per kanał przy rozmowach zdalnych, żeby mówcy pozostali rozróżnialni. Wypowiedz imiona i datę na samym początku.
02
Wgraj go na pierwsze przejście AI
Wrzuć plik (lub wklej link) do Pepys i zyskaj szkic z etykietami mówców i znacznikami czasu w kilka minut, zamiast pół dnia przy klawiaturze.
03
Przeczytaj szkic, słuchając nagrania
Przejrzyj miejsca, z którymi AI sobie nie radzi – nazwiska, żargon, liczby, mówienie naraz – i popraw je. Cokolwiek niejasnego oznacz jako [niesłyszalne] ze znacznikiem czasu.
04
Dopracuj cytaty, które opublikujesz
Zastosuj swój styl dosłowności (ścisły, oczyszczony lub czytelny) do linijek, które się liczą, zachowując znaczniki czasu, żeby każdy cytat dało się sprawdzić.
05
Wyeksportuj i zarchiwizuj
Eksportuj do DOCX lub TXT do pisania albo do SRT/VTT na napisy. Wersję wzorcową przechowuj bezpiecznie i usuń źródłowy dźwięk, jeśli jest wrażliwy.

Wskazówki od osób, które robią to często

Przed właściwym nagraniem zrób 10-sekundowy test i odtwórz go – wyłapanie martwego mikrofonu albo buczącego wentylatora teraz oszczędzi ci później wywiadu nie do użytku.
Nagrywanie per mówca (Zoom, Riverside, osobne mikrofony krawatowe) to największe ulepszenie oznaczania mówców – znacznie większe niż jakiekolwiek ustawienie w narzędziu transkrypcyjnym.
Nie czyść całej transkrypcji. Dopracuj tylko fragmenty, które zacytujesz; reszta musi być po prostu wyszukiwalna.
Buduj indeks cytatów ze znaczników czasu już podczas czytania – przy pisaniu skacz do tych momentów, zamiast czytać całą transkrypcję od nowa.
Trzymaj nieukrytą wersję wzorcową w bezpiecznym miejscu, a anonimizację rób w kopii, żeby nigdy nie stracić oryginalnego przypisania, gdyby trzeba było zweryfikować cytat.

Jak transkrybować wywiad – odpowiedzi na pytania

Jaki jest najszybszy sposób na transkrypcję wywiadu?

Zrób pierwsze przejście AI, a potem dopracuj ręcznie. Wgraj nagranie (lub wklej link), żeby w kilka minut dostać szkic z etykietami mówców i znacznikami czasu, potem popraw tylko nazwiska, żargon i cytaty, które opublikujesz. To znacznie szybsze niż pisanie od zera, które trwa cztery do sześciu razy tyle, ile samo nagranie.

Jak uzyskać dokładne etykiety mówców?

Nagrywaj każdego mówcę na osobnym kanale tam, gdzie możesz – audio per uczestnik w Zoomie albo osobne mikrofony krawatowe – żeby narzędzie nie musiało zgadywać przy mówieniu naraz. Z jednym zmiksowanym plikiem nadal dostaniesz etykiety mówców, ale licz się z poprawianiem większej liczby zmian ręcznie wokół nakładającej się mowy.

Transkrybować słowo w słowo czy oczyszczać?

Zależy od zastosowania. Ścisła dosłowność (każde "yyy" i falstart) pasuje do analizy dyskursu lub analizy prawnej; oczyszczona dosłowność (wypełniacze usunięte, słowa nienaruszone) to standard dziennikarski; czytelna dosłowność lekko porządkuje gramatykę pod druk. Wybierz jeden styl i stosuj go konsekwentnie do cytatów, których faktycznie użyjesz.

Czy nagrywanie i transkrybowanie wywiadu jest legalne?

Uzyskaj zgodę, najlepiej utrwaloną w nagraniu. Przepisy się różnią – gdzieś wystarczy zgoda jednej strony, gdzie indziej muszą zgodzić się wszyscy – więc w razie wątpliwości poproś o wyraźne "tak", zanim zaczniecie o sprawach merytorycznych. Nie udzielamy porad prawnych, ale udokumentowana zgoda to bezpieczny domyślny wybór.

Czy moje nagranie wywiadu będzie przechowywane lub użyte do trenowania AI?

Nie w Pepys. Nigdy nie trenujemy AI na twoim audio ani transkrypcjach, a pliki możesz kazać automatycznie usunąć po przetworzeniu – co liczy się przy wrażliwych źródłach i materiale nieoficjalnym.

Czytaj dalej

Jak transkrybować podcast

Nie wierz nam na słowo.

Zapytaj ChatGPT, Claude lub Perplexity, czym jest Pepys i dla kogo. Jedno kliknięcie i Twoja ulubiona AI odrobi pracę domową za Ciebie.

Zapytaj ChatGPT Zapytaj Claude Zapytaj Perplexity

Jak transkrybować wywiad – zacznij za darmo

Płać za zużycie – kredyty nigdy nie wygasają, nic nie trzeba anulować. Albo zacznij za darmo z 60 minutami, bez karty.

Zacznij za darmo – 60 minut

Nagranie decyduje o 80% twojej dokładności

Dlaczego pierwsze przejście AI bije pisanie ręczne – i gdzie nie bije

Dosłownie, oczyszczona dosłowność czy czytelnie?

Zachowaj znaczniki czasu – to twój ślad audytowy

Zgoda, wrażliwe źródła i przechowywanie po profesjonalnemu

Kroki po kolei

Nagraj czysty, rozdzielony dźwięk

Wgraj go na pierwsze przejście AI

Przeczytaj szkic, słuchając nagrania

Dopracuj cytaty, które opublikujesz

Wyeksportuj i zarchiwizuj

Wskazówki od osób, które robią to często

Jak transkrybować wywiad – odpowiedzi na pytania

Nie wierz nam na słowo.

Jak transkrybować wywiad – zacznij za darmo