手元にある一番きれいなマスター音源を使う
用意できる中で最も高音質なファイルから文字起こししましょう。理想は編集済みのマスター(WAVか高ビットレートのMP3)で、配信用に再エンコードされた圧縮版ではありません。音声がクリアなほど、特にゲストの名前や専門用語まわりの修正が減ります。エピソードが公開済みのリンクとしてしか手元にない場合はそれを貼り付けても構いませんが、きれいな書き出しのほうが必ず仕上がりは良くなります。
マルチトラック収録(話者ごとに別トラック)をしているなら、そのトラックを残しておきましょう。重なり合う2つの声をツールが解きほぐす必要がなくなるため、1つにミックスダウンしたファイルよりも話者ラベルがはるかに正確になります。ひとり収録の番組なら気にする必要はありませんが、ホスト2人+ゲストの回では、きれいなラベルと手作業での修正のひと手間とを分ける差になります。
編集の前ではなく、編集の後に文字起こしすること。脱線をカットしたり音声を直したり一部を削ったりと後処理をしたうえで完成版を文字起こしすれば、文字起こし・チャプター・ショーノートのすべてが、リスナーが実際に耳にする内容と一致します。削除した内容を指す幻のタイムスタンプも生まれません。
文字起こしをショーノートとチャプターに変える
タイムスタンプ付きの文字起こしは、エピソードまわりで公開するすべての素材になります。一度読み通して自然な区切り、つまりイントロ、各メイントピック、ゲストの一番いい話、まとめ、を印づけしてください。その印が(タイムスタンプはすでに付いた状態で)そのままチャプターマーカーになり、ショーノートの骨組みになります。白紙からゼロで作るのではなく、すでにある構造を整えていくだけです。
組み込みのAI要約を使えば初稿づくりを一気に短縮できます。文字起こしから引き締まったエピソード要約とチャプターリストをそのまま受け取り、あとは自分の言葉に整えるだけ。狙いはAIの言葉をそのまま公開することではなく、一番時間のかかる工程(そもそもこの回が何の話だったかを把握すること)を飛ばし、磨き込みに時間を使うことです。
ついでに引用できそうな一文を3つか4つ抜き出しておきましょう。短くて単独で成り立つ文ほど、エピソードの説明文、ニュースレターの予告、引用カードに向いています。しかもタイムスタンプ付きなので、オーディオグラム用にぴったりの音声をそのまま取り出せます。
SEOとアクセシビリティのために文字起こしを公開する
音声は検索エンジンには見えませんが、文字起こしは見えます。エピソードのページに全文を載せれば、45分の会話が何千もの索引可能な語になり、そこで話したトピック・名前・フレーズで検索した人があなたの番組にたどり着けるようになります。多くの個人ポッドキャストにとって、文字起こしページはオーガニック流入の最大の入り口になります。
文字起こしはアクセシビリティの土台でもあります。耳が聞こえない・聞こえにくいリスナー、音を出せない環境にいる人、聞くより読み流したい人、そのすべてがページ上のテキストでアクセスできるようになります。1つの成果物が二役をこなす、つまり1本の文字起こしからリーチとインクルージョンの両方が得られるのです。
クローラーだけでなく人間のために整えましょう。話者ラベルを残し、チャプターと同じ区切りでセクション分けし、サイトが対応しているならタイムスタンプをプレーヤーにリンクさせます。途切れのない文字の壁は技術的には上位表示されても誰も読みません。構造化された文字起こしこそ実際に使われます。
同じファイルから字幕とオーディオグラムを作る
SNS向けに動画クリップやオーディオグラムを切り出すなら字幕が必要ですが、それはもう文字起こしの中にあります。文字起こしをSRTかVTTで書き出せば、正しいタイムスタンプ付きの字幕ファイルが手に入り、そのままクリップに乗せられます。ほとんどの人が音を消して見るフィードでは、字幕付きのクリップは無音・字幕なしのものを大きく上回ります。
オーディオグラムなら、引用インデックスを使って30〜60秒の見せ場を見つけ、そのタイムスタンプの範囲を取り出して、波形と対応する字幕の行を組み合わせます。すべてが1つの文字起こしにひも付いているため、クリップの字幕と公開した文字起こしはまったく同じことを言い、打ち直しもズレも起きません。
英語以外のリスナーに届けたいなら文字起こしを翻訳しましょう。翻訳された文字起こしと翻訳された字幕があれば、本来なら離脱していた人たちにもエピソードが開かれます。1本のエピソードのリーチを複数の言語へ広げる、手間のかからない方法です。