Nagranie decyduje o 80% twojej dokładności
Żadne narzędzie nie przepisze tego, czego mikrofon nigdy nie zarejestrował. Największy wpływ na jakość transkrypcji ma nie oprogramowanie – tylko dźwięk, który do niego trafia. Przy wywiadzie na żywo ustaw rejestrator blisko każdej osoby, z dala od twardych powierzchni, które dudnią, i daleko od kratek wentylacyjnych, lodówek i kawiarnianego ekspresu do espresso. Mikrofon krawatowy za 100 złotych przypięty do klapy bije telefon leżący po drugiej stronie stołu za każdym razem.
Przy wywiadach zdalnych nagrywaj każdą stronę na osobnym kanale, jeśli twoja platforma na to pozwala. Funkcja Zooma "nagrywaj osobny plik audio dla każdego uczestnika" i lokalne nagrywanie ścieżka-na-osobę w Riverside dają ci odizolowanych mówców, dzięki czemu diaryzacja (oznaczanie mówców) jest znacznie czystsza – narzędzie nie musi zgadywać, kto mówi, gdy dwie osoby mówią równocześnie. Jeśli masz tylko jeden zmiksowany plik, to też w porządku; po prostu licz się z poprawianiem większej liczby zmian mówcy ręcznie.
Zanim zaczniesz, wypowiedz do nagrania imię każdej osoby i datę. Brzmi to drobiazgowo, ale opatruje twoją zgodę znacznikiem czasu, ustala, kim jest "Mówca 1", i oszczędza ci ponownego odsłuchiwania, żeby ustalić, który głos należy do źródła, a który do ciebie.
Dlaczego pierwsze przejście AI bije pisanie ręczne – i gdzie nie bije
Pisanie transkrypcji ręcznie zajmuje mniej więcej cztery do sześciu razy tyle, ile trwa nagranie: godzinny wywiad to pół dnia przy klawiaturze. Pierwsze przejście AI zamienia tę godzinę w kilka minut przetwarzania plus skupione dopracowanie, a współczesna zamiana mowy na tekst jest na tyle dokładna, że redagujesz, a nie transkrybujesz na nowo. W większości wywiadów zmienisz kilka słów na minutę, a nie będziesz przebudowywać zdań.
Tam, gdzie AI nadal cię potrzebuje: nazwy własne (nazwiska, firmy, nazwy miejsc), żargon branżowy i skróty, szybko wypowiadane liczby oraz fragmenty, w których dwie osoby mówią naraz. To dokładnie te miejsca, które najbardziej liczą się przy cytacie możliwym do przypisania – właściwy tryb pracy to więc pozwolić maszynie ogarnąć większość i poświęcić uwagę tym 5%, które są nośne.
Jeśli jakiś fragment jest w nagraniu naprawdę niejasny, zaznacz go jako [niesłyszalne] ze znacznikiem czasu, zamiast zgadywać. Oznaczona luka jest uczciwa; pewny siebie, lecz błędny cytat to sprostowanie, które tylko czeka, żeby się wydarzyć.
Dosłownie, oczyszczona dosłowność czy czytelnie?
Zdecyduj o stylu, zanim zaczniesz redagować, bo wpływa on na każdą linijkę. Ścisła dosłowność zachowuje każde "yyy", falstart i powtórzenie – tego chcesz przy analizie dyskursu, w kontekście prawnym albo gdy sednem jest to, jak coś zostało powiedziane. Oczyszczona dosłowność usuwa wypełniacze i zacinanie, ale zachowuje rzeczywiste słowa i gramatykę osoby mówiącej – domyślny wybór dla większości dziennikarstwa i badań. Czytelna (inteligentna) dosłowność lekko porządkuje gramatykę, żeby cytat czytał się gładko w druku, nie zmieniając sensu.
Wybierz jeden styl i stosuj go konsekwentnie. Najszybsza droga to zacząć od czystego szkicu z etykietami mówców, a potem – dla cytatów, które naprawdę opublikujesz – dociągnąć je do wybranego stylu. Nie dopracowuj całej transkrypcji do jakości publikacyjnej – większości i tak nigdy nie zacytujesz. Włóż wysiłek w linijki, które trafią do tekstu.
Cokolwiek wybierzesz, nigdy nie poprawiaj po cichu rzeczowej pomyłki, którą popełniło źródło. Jeśli ktoś poda zły rok, cytat zachowuje zły rok; rozwiązujesz to przez [sic] albo parafrazę, a nie cichą edycję.
Zachowaj znaczniki czasu – to twój ślad audytowy
Transkrypcja ze znacznikami czasu to różnica między "chyba tak powiedziała" a "powiedziała to o 14:32". Przy każdym publikowanym cytacie chcesz móc wrócić prosto do nagrania i usłyszeć go w kontekście, zanim pójdzie w świat. Znaczniki czasu na poziomie słowa lub zdania pozwalają wyrywkowo sprawdzić fragment w kilka sekund, zamiast przewijać tam i z powrotem.
Znaczniki czasu czynią też długi wywiad nawigowalnym. Użyj ich, żeby szybko zbudować indeks ważnych momentów – odpowiedzi, w której zwrot bierze historia, liczby, od której zaczniesz, linijki, którą wyciągniesz na nagłówek – aby przy pisaniu skakać do tych punktów, zamiast czytać na nowo 9000 słów.
Jeśli współpracujesz albo robisz fact-checking, udostępniaj transkrypcję z zachowanymi znacznikami czasu. Osoba sprawdzająca fakty, która może usłyszeć dokładną linijkę, pracuje znacznie szybciej i bardziej ufa cytatowi niż ktoś, kto wpatruje się w sam tekst.
Zgoda, wrażliwe źródła i przechowywanie po profesjonalnemu
Uzyskaj zgodę na nagrywanie udokumentowaną, najlepiej utrwaloną w samym nagraniu. Przepisy o nagrywaniu są różne – w wielu stanach USA wystarczy zgoda jednej strony, kilka wymaga zgody wszystkich uczestników, a inne kraje regulują to jeszcze inaczej – więc w razie wątpliwości zapytaj i uzyskaj wyraźne "tak", zanim zaczniecie o sprawach merytorycznych.
Przy materiale wrażliwym lub nieoficjalnym pilnuj, gdzie leżą nagranie i transkrypcja. Korzystaj z narzędzia, które nie trenuje AI na twoich plikach, pozwala usunąć nagrania po przetworzeniu i nie zatrzymuje ich po cichu. Pepys nigdy nie trenuje na twoim audio ani tekście, a pliki możesz kazać automatycznie usunąć po transkrypcji.
Anonimizuj w samej transkrypcji, gdy źródło wymaga ochrony: zastępuj nazwiska etykietą roli już przy czyszczeniu szkicu, a nieukrytą wersję wzorcową trzymaj w miejscu z kontrolą dostępu. Nie rozsyłaj surowej transkrypcji mailem, jeśli jakieś nazwisko mogłoby kogoś narazić.