語音轉文字：方法、準確度與逐字稿產出全攻略

從手動聽打到 AI 自動轉錄，搞懂什麼時候該用哪一種，讓錄音、訪談、會議都能快速變成可搜尋的文字稿。

語音轉文字是把錄音或即時說話轉成文字稿的過程。幾句話的短片段可以手動聽打，但一小時以上的訪談或會議建議用 AI 轉錄：上傳音檔後系統自動辨識，輸出帶時間軸與講者標記的逐字稿，再人工校對專有名詞即可。Pepys 支援 99 種以上語言，前 60 分鐘免費。

免費轉錄前 60 分鐘

or paste a link

「語音轉文字」聽起來只是把聲音變成字，但實際做起來，選錯方法可能讓你多花好幾倍時間。手動一個字一個字聽打一小時的訪談，往往要耗上四到六小時；而丟給 AI 轉錄，幾分鐘就能拿到初稿，剩下的只是校對。

這篇文章會拆解三種主流做法各自適合的情境、決定辨識準確度的關鍵因素，以及中文（含台語、粵語、中英夾雜）特有的難題，最後示範怎麼用 Pepys 從音檔一路走到乾淨的逐字稿。

語音轉文字的三種常見做法

**手動聽打**：戴上耳機，一句一句聽、一個字一個字打。準確度完全取決於打字的人，適合只有幾十秒、或內容極度敏感、一個字都不能錯的短片段。缺點就是慢，而且長時間聽打很容易疲勞出錯。

**即時語音輸入法**：手機內建的語音鍵盤、電腦的聽寫功能，適合邊講邊記備忘、寫短訊息。它處理的是「當下的清晰說話」，一旦碰到多人交談、背景吵雜或錄好的音檔，辨識就會明顯掉漆，也通常不會幫你分辨誰在講話。

**AI 自動轉錄**：把整段錄音檔上傳，由語音辨識模型一次轉成完整逐字稿，並自動附上時間軸與講者標記。這是處理訪談、會議、Podcast、上課錄音最省時的方式，人只需要在初稿上校對，而不是從零聽打。

判斷的關鍵是「長度」與「用途」。內容在一兩分鐘以內、或你正好只需要抓其中一兩句金句，手動聽打反而最快，不必等上傳與處理。

但只要音檔超過十分鐘、或你有一整批要處理，AI 轉錄幾乎一定更划算。它把最花時間的「初稿」自動化，你的角色從「打字員」變成「校對員」，通常只要修正專有名詞、人名和少數同音字即可。

一個實務上的折衷做法：先用 AI 產出逐字稿當底稿，再對照時間軸跳到需要重聽的段落人工微調。這樣既拿到速度，也守住準確度，是多數記者、研究者、內容創作者現在採用的流程。

**收音品質**最重要。乾淨、靠近麥克風、無回音的錄音，辨識率會明顯高於用手機隔著桌子錄的吵雜檔案。錄之前把麥克風靠近說話者、關掉冷氣或風扇噪音，效果勝過事後任何補救。

**口音與語速**也有影響。濃重口音、講得又快又含糊、或多人搶話插嘴，都會增加辨識難度。**專有名詞、品牌名、人名**是另一個常見失分點，因為它們不在日常語料裡，通常需要人工校對這一關。

要提醒的是，任何工具都不該宣稱「百分之百準確」。務實的期待是：清晰音檔能得到相當可用的初稿，而最後那一哩的精準，仍由人的校對來補齊。

中文轉錄比英文更吃辨識模型的功力。**同音字**是第一關，「在意」與「在議」、「權利」與「權力」，光靠發音無法區分，得靠上下文判斷。

**中英夾雜**在台灣、香港的職場對話裡非常普遍，一句話裡混著英文專有名詞和產品名，工具必須能同時處理兩種語言。**方言與口音**如台語、粵語，以及國語的地區腔調，也會拉高難度。

選工具時，重點看它是否原生支援中文而非勉強套用，以及能否在同一份稿裡處理多語言。Pepys 支援 99 種以上語言，中英混雜的訪談也能一次轉完，省去手動切換的麻煩。

逐字稿只是起點。拿到帶時間軸的稿子後，你可以直接引用某句話並附上時間戳、把不同講者的段落分開整理，或快速跳到會議中拍板的那一刻。

Pepys 在每一份檔案上都附了 AI 摘要、自動章節，還能直接「跟逐字稿對話」，用問問題的方式找出「他們對預算下了什麼結論」，不必從頭捲到尾。匯出格式涵蓋 TXT、Markdown、DOCX、PDF、SRT、VTT 與 JSON，接字幕或接文件都方便。

語音轉文字準確嗎？

準確度主要取決於收音品質、口音、語速與是否有背景噪音。清晰、靠近麥克風的錄音能得到相當可用的初稿，但人名、品牌與專有名詞通常仍需人工校對。實務上最好的做法是用 AI 產出底稿，再由人補上最後那一哩的精準，任何工具都不該宣稱百分之百準確。

免費的語音轉文字工具好用嗎？

免費工具適合偶爾、短片段的需求，但常有時長上限、不分講者或不附時間軸。如果你要處理長訪談或整批檔案，帶講者標記與時間軸的工具會省下大量校對時間。Pepys 提供前 60 分鐘免費、免綁卡，之後採買一次額度就永久有效、用多少算多少的方式。

可以轉錄台語、粵語或中英夾雜的錄音嗎？

可以。Pepys 支援 99 種以上語言，能處理中英混雜的職場對話，方言與地區口音的辨識則會受收音清晰度影響。建議錄製時讓麥克風靠近說話者、減少背景噪音，並在轉完後校對專有名詞，成果會更理想。

一小時的錄音要轉多久？

AI 自動轉錄通常只需幾分鐘就能產出初稿，遠快於手動聽打同一小時往往要花上四到六小時。你不必一直守在頁面前，Pepys 會在背景處理，完成後直接給你帶時間軸的完整逐字稿。

我上傳的錄音會被拿去訓練 AI 嗎？

不會。Pepys 絕不會用你的音檔或文字去訓練 AI 模型。你也可以選擇開啟自動刪除，讓檔案在處理完成後自動移除，讓敏感的訪談與會議內容更有保障。

Ask ChatGPT, Claude, or Perplexity what Pepys is and who it's for. One click, and your favorite AI does the homework.