9,438,517分を文字起こし

話者分離

誰が何を話したかが一目で分かる。ファイルをアップロードするかリンクを貼るだけで、話者ごとに分かれた文字起こしを、発話の切り替わりと声ごとの発話時間つきで受け取れます。

またはリンクを貼り付け

MP3、M4A、WAV、MP4などの音声・動画ファイル、またはリンクに対応。話者ラベル・発話ごとのタイムスタンプ・発話時間つきの「誰が何を話したか」の文字起こしで出力します。

Speaker labels come from voice separation, not identity – Pepys tags distinct voices as Speaker 1, Speaker 2, and so on. It doesn't recognize anyone by name or voiceprint; you rename the labels to the real names yourself.

60分が無料・カード登録不要・あなたの音声でAIを学習させることは一切ありません

100k人以上のユーザーに利用されています

話者分離とは何ですか？

Pepysが録音に話者分離を実行します。音声を声ごとに区切り、各発話にラベル（話者1、話者2…）を付け、話者ごとの発話時間を集計。ファイルをアップロードまたはリンクを貼るだけで、分単位のタイムスタンプつき「誰が何を話したか」の文字起こしが99以上の言語で手に入ります。最初の60分は無料、カード登録は不要です。

話者分離の使い方

音声をアップロードまたはリンクを貼る

複数人の録音をドロップするか、リンクを貼り付けるだけ。どんな形式・どんな言語でも対応します。

話者分離された結果を受け取る

Pepysが音声を声ごとに区切り、各発話にラベルを付与。各話者の開始と終了をタイムスタンプで示します。

名前を付け、確認し、書き出す

汎用ラベルを実名に置き換え、音声と照らし合わせて確認したうえで、TXT、Markdown、DOCX、PDF、SRT、VTT、JSONに書き出せます。

話者分離は、ただの文字起こしでは答えられない問いに答えます – 誰が、いつ話しているのか。Pepysは録音を話者ごとの発話に分割し（話者1、話者2…）、インタビュー、パネルディスカッション、フォーカスグループ、二人組のポッドキャストを、のっぺりとした文章の壁ではなく、すっきりとしたやり取りとして読めるようにします。各発話には開始・終了のタイムスタンプが付き、声ごとの発話時間も集計。誰が場を支配したか、誰がほとんど話さなかったか、どこで話が切り替わったか – その後の問いにそのまま使えます。

誰が何を話したかを把握する必要があるすべての人のために – 質的インタビューをコーディングする研究者、引用元を特定する記者、話者ごとの発話を議事録ツールや分析ツールに流し込む開発者。ラベルはその場で実名に置き換えられ（「話者2」が「岡崎先生」に）、各発話は構造化されたJSONとして書き出せます – 各セグメントに話者・開始終了タイムスタンプ・話者ごとの発話時間が付き、話者ラベルつきのきれいな文字起こしとしても出力できます。あなたの音声でAIを学習させることは一切なく、クレジットは無期限です。

整った段落へ。「えーと」も「あのー」も、もうありません。

左がPepysが返すものです。フィラーを取り除き、句読点を整えて読みやすくした、筋の通った段落になっています。右は、多くの文字起こしツールが残すままの、1セグメントごとに1行のそのままの出力です。

reel-voiceover.mp4

えーと、まあその、みんな最初に一番いいセリフから入れって言うじゃないですか、でもあのー正直、最初の一秒で答えを全部出しちゃうと、なんかもう続きを見る理由ってほぼないわけで、だからフックって別に一番賢いことを言うってことじゃなくて、なんていうか開いたループを相手に閉じてもらう感じで、えーと、まさにそこが実際に人を引き留めてる部分なんですよね

そのまま

reel-voiceover.txt

クリエイターみんな最初に一番いいセリフから入れと言います。でも最初の一秒で答えを全部出してしまうと、続きを見る理由がなくなります。

クリエイターフックは一番賢いことを言うことではありません。あなたが開き、視聴者が閉じる必要のあるループです。

クリエイターまさにそこが、実際に人を引き留めている部分なのです。

整形済み

ビフォーアフター

開始・終了タイムスタンプと話者ごとの発話時間つきの「誰が何を話したか」発話
汎用ラベルをその場で実名に変更 – 再実行は不要
構造化されたJSON書き出し – セグメント・話者ラベル・タイムスタンプ・発話時間をパイプラインへ
99以上の言語を自動検出 · あなたの音声でAIを学習させません · クレジットは無期限

あなたが日々使うプラットフォームに対応。

YouTube、TikTok、Instagram、Facebook、Spotify、Apple Podcastsのリンクを貼るだけ。もちろん、どんな音声・動画ファイルもドロップできます。一度文字起こしすれば、あなたのワークフローに合わせて好きな形式で書き出せます。

YouTube
TikTok
Instagram
Facebook
Spotify
Apple Podcasts
またはどんなファイルでも

あらゆる形式に書き出し

TXT
Markdown
DOCX
PDF
SRT
VTT
JSON

タイムスタンプ、話者ラベル、字幕のタイミングは、すべての書き出し形式に引き継がれます。

話者分離 – よくある質問

話者分離とは何ですか？

話者分離とは、録音を「誰が話しているか」で区切る処理です – 音声を発話ごとに分割し、それぞれにラベル（話者1、話者2…）を付けます。「何を話したか」とは別に「いつ誰が話したか」に答えます。Pepysは両方を一度の処理で行い、分離と文字起こしを同時にこなします。

普通の文字起こしと何が違いますか？

普通の文字起こしは言葉だけを返します。話者分離はそこに話者の構造を重ねます – 発話の区切り、声ごとのラベル、発話時間の集計。だから複数人の録音が、ひとつながりのかたまりではなく、誰の発言かが分かるやり取りとして読めます。

話者ラベルの精度はどのくらいですか？

声が明瞭で区別しやすい録音では、発話の区切りもラベルも高精度です。激しい同時発話や、ほぼ同じ声、ノイズの多い音声では一部の発話が曖昧になることも – そのためラベルは汎用（話者1、2…）から始まり、書き出す前にその場で名前を付け、各発話を修正できます。

各話者の名前まで分かりますか？

話者分離は声を区別するもので、本人を特定するものではありません – そのため話者は話者1、話者2…として出力されます。実名は一度その場で割り当てれば、その声のすべての発話にまとめて反映されます。

話者データを構造化されたJSONで書き出せますか？

はい。JSON書き出しでは、各セグメントに話者ラベル・開始終了タイムスタンプ・話者ごとの発話時間が付き、Whisper互換の形式でスクリプトや分析ツール、研究のワークフローにそのまま投入できます – 人が読む用途や字幕には、TXT、Markdown、DOCX、PDF、SRT、VTTでの書き出しも可能です。

ほかの無料ツール

私たちの言葉だけを鵜呑みにしないでください。

Pepysがどんなサービスで、誰のためのものか、ChatGPTやClaude、Perplexityに聞いてみてください。ワンクリックで、お気に入りのAIが代わりに調べてくれます。

ChatGPTに聞く Claudeに聞く Perplexityに聞く

話者分離 – 無料で始められます

使った分だけのお支払い。クレジットは無期限で、解約も不要です。または60分の無料分から、カード登録なしで始められます。

無料で始める – 60分または料金を見る