精度の8割は録音で決まる
マイクが拾わなかった音は、どんなツールでも文字起こしできません。文字起こしの品質を最も大きく左右するのはソフトではなく、入ってくる音声そのものです。対面のインタビューなら、レコーダーを各話者の近くに置き、反響する硬い面から離し、空調の吹き出し口や冷蔵庫、カフェのエスプレッソマシンからも遠ざけます。襟元に留めた3,000円のラベリアマイクは、テーブルの向こうに置いたスマホに毎回勝ちます。
リモートのインタビューでは、プラットフォームが許すなら各話者をそれぞれ別チャンネルで録音します。Zoomの「参加者ごとに別々の音声ファイルを録音する」設定やRiversideのローカルでのトラック別録音は、どちらも話者を分離して記録してくれるので、ダイアライゼーション(話者ラベル付け)が格段にきれいになります – 2人の声が重なっても、ツールが誰の発言かを当てずっぽうで判断せずに済むからです。混ざった1ファイルしか得られなくても問題ありません。ただ、話者の切り替わりを手作業で直す回数が増えると見込んでおきましょう。
始める前に、各人の名前と日付を録音に吹き込んでおきます。大げさに聞こえますが、これで同意の時刻が記録され、「話者1」が誰なのかが固定され、どちらの声が情報源でどちらが自分なのかを確かめるために聴き直す手間が省けます。
AIの一巡目が入力に勝つ理由 – そして勝てない場面
手作業で文字起こしすると、おおよそ音声の長さの4〜6倍かかります。1時間のインタビューなら半日キーボードに向かう計算です。AIの一巡目はその1時間を数分の処理と的を絞った仕上げに変え、いまの音声認識は再文字起こしではなく編集で済むほど正確です。たいていのインタビューでは、文を組み直すのではなく1分あたり数語を直す程度になります。
それでもAIに人手が要る場面があります。固有名詞(人名、社名、地名)、業界の専門用語や略語、早口で言われた数字、そして2人が同時に話すクロストークです。これらはまさに、出典をたどれる引用にとって最も重要な箇所 – だから正しい進め方は、大半は機械に任せ、土台となる5%に自分の注意を注ぐことです。
音声の中でどうしても聞き取れない箇所があれば、推測で埋めるのではなく、タイムスタンプを添えて[聞き取り不能]と記します。印を付けた空白は誠実ですが、自信たっぷりの誤った引用は訂正を待っているようなものです。
完全逐語、クリーン逐語、それとも読みやすさ重視?
編集する前にスタイルを決めましょう。これがすべての行を左右するからです。完全逐語(ストリクト)はすべての「えーと」、言い直し、繰り返しを残します – 談話分析や法的な文脈、あるいは「どう言ったか」が肝心なときに使うものです。クリーン逐語はつなぎ言葉やどもりを落としつつ、話者が実際に使った言葉と文法は残します – 多くのジャーナリズムや研究での標準です。インテリジェント(読みやすい)逐語は、意味を変えずに文法を軽く整え、印刷物で引用がなめらかに読めるようにします。
一つを選んで一貫して適用します。最速の道は、きれいで話者ラベル付きの下書きから始め、実際に公開する引用についてだけ、選んだスタイルに整えることです。文字起こし全体を公開水準まで磨こうとしないこと – そのほとんどは引用されません。記事に入る行に労力を注ぎましょう。
どれを選んでも、情報源が口にした事実の誤りをこっそり直してはいけません。間違った年を言ったなら、引用はその間違った年のまま残し、[ママ]や言い換えで対応します。黙って手を入れてはいけません。
タイムスタンプを残す – それがあなたの監査証跡
タイムスタンプ付きの文字起こしは、「彼女はそう言ったと思う」と「彼女は14:32にそう言った」の違いです。公開するどの引用についても、出す前に音声へ一気に戻り、文脈の中で聞き直したいはずです。単語単位や文単位のタイムスタンプがあれば、巻き戻して探す代わりに数秒で確認できます。
タイムスタンプは長いインタビューを辿りやすくもします。重要な瞬間 – 話が転換する答え、冒頭に持ってくる数字、見出しに抜き出す一言 – の簡単な索引を作っておけば、執筆時に9,000語を読み返すのではなく、その地点へ飛べます。
共同作業やファクトチェックをするなら、タイムスタンプを保ったまま文字起こしを共有します。その行を正確に聞けるファクトチェッカーは、テキストだけを見つめる人よりはるかに速く動き、引用をより信頼します。
同意、デリケートな情報源、保管をプロのように扱う
録音の同意は記録に残る形で得ましょう。理想は音声そのものに収めることです。録音に関する法律はさまざまで – 米国の多くの州は一方当事者の同意で足り、いくつかの州は全員の合意を求め、他国はまた異なります – 迷ったら、本題に入る前に尋ね、はっきりした「はい」をもらいましょう。
デリケートな、あるいはオフレコの素材については、音声と文字起こしがどこに置かれるかに気を配ります。あなたのファイルでAIを学習させず、処理後に録音を削除でき、こっそり保持しないツールを使いましょう。Pepysはあなたの音声やテキストで学習することは決してなく、文字起こしが終わったファイルは自動削除できます。
情報源を守る必要があるときは、文字起こしそのものの中で匿名化します。下書きを整えるときに名前を役割のラベルに置き換え、伏せていないマスターはアクセス制御された場所に保管します。名前によって誰かが危険にさらされかねないなら、生の文字起こしをメールであちこちに回さないこと。