快速又免費的語音轉文字神器『Faster Whisper』,一鍵解決影音內容爆量時代的痛點!
多媒體數位影音充斥的時代,YouTube 影片、Podcast 節目、線上課程、網路會議錄影,甚至 IG 直播、Twitch 遊戲實況,短則十幾分鐘長則數小時。就算快轉播放,人類的視覺和聽覺吸收資訊仍有極限。現代人面對資訊轟炸,難免會有不想錯過新知的 FOMO 強迫心態,在有限的時間如何最大化吸取新知成為顯學。因此,把影像或聲音內容快速轉錄成文字,再透過 AI 工具進一步摘要歸納整理,已經成為現代人必備的技能。
為什麼需要本地端語音轉文字工具?
過往網路上已有許多免費或付費的雲端轉錄平台,但考量這些平台通常都會有檔案格式、大小、時間長度限制,例如 Google 的 Notebook LM 只能上傳 MP3 且單檔限制 200MB,去年曾經紅極一時但現已停止服務的 Whisper JAX,也限制單檔不能超過兩小時。而實際測試中,通常超過一小時的檔案就不太穩定甚至會整個當掉。
當使用者面對較長的影片時,通常必須先用其他工具將影片轉為音訊檔,甚至需要將檔案切割成多個小檔,才能上傳平台做分析,操作上較為不便。此外,檔案上傳到雲端多少會有隱私安全的疑慮,更不要說許多付費平台是按照使用量計價或收取高額月租費,對個人用戶而言是一筆不小的負擔。
為什麼選擇 Faster Whisper?
目前大部分雲端或本地端的語音轉文字工具,背後多半是基於 OpenAI Whisper 模型或 串接API。轉錄品質主要依據模型的參數大小,而轉錄速度則取決於模型選擇與雲端本地硬體的「算力」。然而雲端平台也要考慮多人同時使用的負荷,以及檔案上傳的網路傳輸時間,因此,雲端與本地處理各有優缺點。如果你本地端裝置硬體夠力,用本地端模式處理語音轉文字,其實是個可行又安全的替代方案。
最近筆者剛好逛到了 Github 上大神 Purfview 開發的開源軟體『Faster Whisper』,經過個人試用,覺得在速度與品質上都表現優異。但由於原始程式需要一些命令列基礎,對一般使用者可能會覺得有點門檻,而原作者的文件說明又比較簡略,因此我決定親自實測後來寫一篇淺顯易懂的教學說明。
Faster Whisper 特色大盤點
免網路離線使用,保障隱私安全。
支援幾乎所有常見的影片或音訊格式(例如 MP4、MKV、MP3、WAV),無須額外轉檔。
無需安裝或複雜設定,下載解壓後直接使用。
高準確度轉錄,模型可依需求與硬體效能來自由選擇。
可處理多語言單一檔案,例如有專有名詞的中英夾雜影片。
批量處理整個資料夾內檔案,不用分批上傳提交,提高工作效率。
輸出格式多元,可選 SRT 字幕或 TXT 純文字檔,方便後續應用。
自動偵測硬體,自行判斷使用 GPU(CUDA)或 CPU 以最大化算力。
下載與基本操作
下載連結:Faster Whisper
假設你要轉錄的原始檔案位於 Downloads 資料夾,開啟 cmd 命令列後的基本轉錄命令範例如下:
faster-whisper-xxl.exe "C:\Users\[您的名稱]\Downloads" -m medium -l zh -f txt -o "C:\Users\[您的名稱]\Downloads\output" 常用參數:
-m:選擇模型大小(tiny, small, medium, large, xxl)-l:指定語言(例如 zh 中文, en 英文)-f:輸出格式(txt 純文字, srt 字幕)
針對中英混雜影片,自動偵測語言的指令範例如下:
faster-whisper-xxl.exe "C:\Users\[您的名稱]\Downloads" -m medium --language_detection_segments 3 -f txt -o output常用命令參數與範例操作
實際測試成效
硬體配備:
- 中央處理器 CPU: 第 13 代 Intel® Core™ i7-13700H 處理器 2.9 GHz 14核心
- 記憶體 :32 GB LPDDR5x RAM
- 顯示卡: NVIDIA® GeForce RTX™ 4050 GPU 與 6 GB GDDR6 vRAM
個人實測了一支長度 32分14秒 的影片,使用 medium 模型轉錄需要 6分8秒,而改用在效能和速度上兩全其美的 large-v3-turbo 模型轉錄卻只花了 2分30秒。影片內容即便包含許多醫學領域的專業術語與中英文交錯夾雜的口語化內容,轉錄品質仍相當出色,錯誤率低。轉錄出的SRT格式檔案也可以立即搭配原始影片同步撥放,即可做為帶有同步字幕的影片。
一個有趣的現象是,通常越小的檔案平均處理速度反而比較慢,因為啟動模型和載入時間佔比較大,而越大的檔案平均處理速度反而比較快,因為後續處理時模型已完全載入,較多時間只是批量化作業。這就類似搭飛機的狀態一樣,短程航班(例如桃園飛往高雄)乘客會覺得光是花在報到、託運、安檢、通關、候機等排隊等待的時間就已經占據大半,稀釋掉實際真正飛行的時間,比起長程航班(例如桃園飛往芝加哥)的距離,攤提下來會讓人覺得單位有效時間的平均進度較慢。反思人生,其實面對很多的問題挑戰也都是如此的運作原理,初期的窒礙難行往往是因為尚未克服最大靜摩擦的瓶頸限制,然而一旦開始採取行動並逐漸打造系統環境,即便只是很微小但實際的進度,後面就是反覆疊代與持續優化的過程而已。
如果不擅長命令列?還有幾個替代方案!
若你害怕或不熟悉命令列指令操作,也推薦使用另一個視窗化介面軟體:WhisperDesktop。這個工具已經較久時間未更新版本,網路上相關教學文也已經很多,各位讀者可先行上網尋試用。WhisperDesktop 在轉錄速度上雖然與 Faster Whisper 差距不大(因為是用類似的模型),但在過往實際使用經驗上,卻發現對於較長時間的影片或音訊處理容易出現錯誤,例如可能會鬼打牆似地將同一句話一直無窮迴圈反覆出現,而無法正確辨識出正確的內容。
本來筆者也在思考是否要嘗試將品質較好且開放原始碼的 Faster Whisper 嘗試自行優化為具有視窗化介面的軟體[所謂的圖形使用者介面(Graphical User Interface, GUI)],沒想到上網一搜尋發現其實已經有大神開發出來了—Faster Whisper GUI。網路上也已有優秀的寫手 Moment Story 分享過圖文並茂簡潔易懂的操作示範說明,軟體運作原理基本上就是將 Faster Whisper 包裝成GUI的視窗化介面,因此前述所有功能都有包含,方便一般使用者無痛使用,操作上當然就更加直觀且人性化。




感謝版主分享新的逐字稿軟體,本機版的真的都很吃硬體 (需要換電腦了)
回覆刪除我實際測試了一下,
這款好玩的地方在,就算像我的電腦效能不是太好,要跑很久
因為在 cmd 看得到一條一條的逐字稿正在產出,就知道進度
不像其他類似的本機版逐字稿,不知道到底轉到哪裡了,還是直接死掉了
(進度的透明度)
另外補充一下截圖上有,但是文字敘述上沒有的步驟,方便其他麻瓜參考:
進入 cmd 之後,一開始要輸入 cd [exe 所在資料夾],
先轉到這個資料夾之後才能開始使用,資料夾的路徑可以透過拖拉檔案直接產生
另外要跑得順利,首先要先把影片轉為音訊檔 (我用 VLC player)
再來是檔案可能都要切小一點,尤其是沒有獨立顯卡的...(對!就是我!)
一小時半的影片,第一次我用影片 .mp4 跑,跑到影片的 30 分鐘,可能電腦直接休眠了,死當
隔天用音訊檔跑,一開始速度比較快,後來運轉超過兩小時之後
可能 CPU 累了,就開始越轉越慢 (電腦也會職業倦怠)
不過看在免費又不限時長的份上,電腦閒置時放著跑也是不錯啦
補充說明如下:
刪除A. 命令列的基本操作我在內文並無特別描述,否則要從盤古開天談起幅員遼闊。不過可以參考Purfview大神在Github附上的示範影片 Guide how to run the command line programs: https://www.youtube.com/watch?v=A3nwRCV-bTU 或其他網路上的說明,當然直接詢問 AI 也是一個可行的方式。
B. 這款的重要特色就是 "不需要先將影片檔轉音訊檔" 就可直接使用,如果還要多一步驟先轉音訊檔那就喪失了使用這款工具的用意,那就不如直接用其他可語音轉文字的平台或工具就行,例如Notebook LM。至於跑起來會感覺不順,主要還是因為用純CPU去跑的關係,換用獨立顯卡去跑就會明顯飛快。
C. 考量一般使用者對於命令列使用還是會有門檻,同步提供Faster Whisper GUI圖像視窗化界面方便操作,內文已有更新,請參考。
感謝更新,真的…看到歐嚕嚕的 cmd 就開始發抖了
刪除感謝提供現代化頁面