Pepys

語音轉文字:方法、準確度與逐字稿產出全攻略

從手動聽打到 AI 自動轉錄,搞懂什麼時候該用哪一種,讓錄音、訪談、會議都能快速變成可搜尋的文字稿。

語音轉文字是把錄音或即時說話轉成文字稿的過程。幾句話的短片段可以手動聽打,但一小時以上的訪談或會議建議用 AI 轉錄:上傳音檔後系統自動辨識,輸出帶時間軸與講者標記的逐字稿,再人工校對專有名詞即可。Pepys 支援 99 種以上語言,前 60 分鐘免費。

免費轉錄前 60 分鐘

or paste a link
InstagramTikTokYouTubeFacebookSpotifyApple Podcasts

「語音轉文字」聽起來只是把聲音變成字,但實際做起來,選錯方法可能讓你多花好幾倍時間。手動一個字一個字聽打一小時的訪談,往往要耗上四到六小時;而丟給 AI 轉錄,幾分鐘就能拿到初稿,剩下的只是校對。

這篇文章會拆解三種主流做法各自適合的情境、決定辨識準確度的關鍵因素,以及中文(含台語、粵語、中英夾雜)特有的難題,最後示範怎麼用 Pepys 從音檔一路走到乾淨的逐字稿。

  1. 1

    註冊並領取免費額度

    用 Email 註冊 Pepys,前 60 分鐘轉錄免費,不需要綁信用卡,可以先拿實際音檔試轉看看效果。

  2. 2

    上傳你的音檔或影片

    把錄音、訪談、會議或影片檔拖進上傳區。系統支援常見的音訊與視訊格式,長檔也會自動處理,不必自己切片。

  3. 3

    選擇語言與辨識選項

    選擇音檔的主要語言(支援 99 種以上,含中英夾雜情境),並視需要開啟講者標記與時間軸。

  4. 4

    等待自動轉錄完成

    送出後由 AI 在背景轉錄,你不需要一直開著頁面。完成後會得到帶時間軸與講者標記的完整逐字稿。

  5. 5

    校對、善用摘要與對話功能

    對照時間軸校對專有名詞與同音字,接著用 AI 摘要與自動章節快速掌握重點,或直接跟逐字稿對話問出你要的答案。

  6. 6

    匯出你需要的格式

    以 TXT、Markdown、DOCX、PDF、SRT、VTT 或 JSON 匯出。需要時可開啟自動刪除,讓檔案在處理後自動移除。

語音轉文字的三種常見做法

**手動聽打**:戴上耳機,一句一句聽、一個字一個字打。準確度完全取決於打字的人,適合只有幾十秒、或內容極度敏感、一個字都不能錯的短片段。缺點就是慢,而且長時間聽打很容易疲勞出錯。

**即時語音輸入法**:手機內建的語音鍵盤、電腦的聽寫功能,適合邊講邊記備忘、寫短訊息。它處理的是「當下的清晰說話」,一旦碰到多人交談、背景吵雜或錄好的音檔,辨識就會明顯掉漆,也通常不會幫你分辨誰在講話。

**AI 自動轉錄**:把整段錄音檔上傳,由語音辨識模型一次轉成完整逐字稿,並自動附上時間軸與講者標記。這是處理訪談、會議、Podcast、上課錄音最省時的方式,人只需要在初稿上校對,而不是從零聽打。

手動聽打 vs AI 轉錄:什麼時候用哪一種

判斷的關鍵是「長度」與「用途」。內容在一兩分鐘以內、或你正好只需要抓其中一兩句金句,手動聽打反而最快,不必等上傳與處理。

但只要音檔超過十分鐘、或你有一整批要處理,AI 轉錄幾乎一定更划算。它把最花時間的「初稿」自動化,你的角色從「打字員」變成「校對員」,通常只要修正專有名詞、人名和少數同音字即可。

一個實務上的折衷做法:先用 AI 產出逐字稿當底稿,再對照時間軸跳到需要重聽的段落人工微調。這樣既拿到速度,也守住準確度,是多數記者、研究者、內容創作者現在採用的流程。

影響辨識準確度的關鍵因素

**收音品質**最重要。乾淨、靠近麥克風、無回音的錄音,辨識率會明顯高於用手機隔著桌子錄的吵雜檔案。錄之前把麥克風靠近說話者、關掉冷氣或風扇噪音,效果勝過事後任何補救。

**口音與語速**也有影響。濃重口音、講得又快又含糊、或多人搶話插嘴,都會增加辨識難度。**專有名詞、品牌名、人名**是另一個常見失分點,因為它們不在日常語料裡,通常需要人工校對這一關。

要提醒的是,任何工具都不該宣稱「百分之百準確」。務實的期待是:清晰音檔能得到相當可用的初稿,而最後那一哩的精準,仍由人的校對來補齊。

中文語音轉文字的特殊難題

中文轉錄比英文更吃辨識模型的功力。**同音字**是第一關,「在意」與「在議」、「權利」與「權力」,光靠發音無法區分,得靠上下文判斷。

**中英夾雜**在台灣、香港的職場對話裡非常普遍,一句話裡混著英文專有名詞和產品名,工具必須能同時處理兩種語言。**方言與口音**如台語、粵語,以及國語的地區腔調,也會拉高難度。

選工具時,重點看它是否原生支援中文而非勉強套用,以及能否在同一份稿裡處理多語言。Pepys 支援 99 種以上語言,中英混雜的訪談也能一次轉完,省去手動切換的麻煩。

轉完文字稿之後,別讓它躺著

逐字稿只是起點。拿到帶時間軸的稿子後,你可以直接引用某句話並附上時間戳、把不同講者的段落分開整理,或快速跳到會議中拍板的那一刻。

Pepys 在每一份檔案上都附了 AI 摘要、自動章節,還能直接「跟逐字稿對話」,用問問題的方式找出「他們對預算下了什麼結論」,不必從頭捲到尾。匯出格式涵蓋 TXT、Markdown、DOCX、PDF、SRT、VTT 與 JSON,接字幕或接文件都方便。

常見問題

語音轉文字準確嗎?

準確度主要取決於收音品質、口音、語速與是否有背景噪音。清晰、靠近麥克風的錄音能得到相當可用的初稿,但人名、品牌與專有名詞通常仍需人工校對。實務上最好的做法是用 AI 產出底稿,再由人補上最後那一哩的精準,任何工具都不該宣稱百分之百準確。

免費的語音轉文字工具好用嗎?

免費工具適合偶爾、短片段的需求,但常有時長上限、不分講者或不附時間軸。如果你要處理長訪談或整批檔案,帶講者標記與時間軸的工具會省下大量校對時間。Pepys 提供前 60 分鐘免費、免綁卡,之後採買一次額度就永久有效、用多少算多少的方式。

可以轉錄台語、粵語或中英夾雜的錄音嗎?

可以。Pepys 支援 99 種以上語言,能處理中英混雜的職場對話,方言與地區口音的辨識則會受收音清晰度影響。建議錄製時讓麥克風靠近說話者、減少背景噪音,並在轉完後校對專有名詞,成果會更理想。

一小時的錄音要轉多久?

AI 自動轉錄通常只需幾分鐘就能產出初稿,遠快於手動聽打同一小時往往要花上四到六小時。你不必一直守在頁面前,Pepys 會在背景處理,完成後直接給你帶時間軸的完整逐字稿。

我上傳的錄音會被拿去訓練 AI 嗎?

不會。Pepys 絕不會用你的音檔或文字去訓練 AI 模型。你也可以選擇開啟自動刪除,讓檔案在處理完成後自動移除,讓敏感的訪談與會議內容更有保障。

Don't just take our word for it.

Ask ChatGPT, Claude, or Perplexity what Pepys is and who it's for. One click, and your favorite AI does the homework.