沒有獨立顯卡也能離線轉錄長影音?QwenASRMiniTool 免安裝 AI 語音轉字幕工具
前陣子有朋友看我介紹 Typeless 這類 AI 即時語音輸入工具 之後,突然想到一個異想天開的用法。
他問我:那我是不是可以把影片播出來,然後開著 Typeless,讓它一邊聽、一邊幫影片上字幕,甚至順便做字幕翻譯?
這個想法當然不是不行。
如果只是 3 分鐘、5 分鐘的短影片,勉強可以玩一下。你把影片用喇叭播出來,電腦或手機麥克風收到聲音,Typeless 之類的工具就會把它當成你正在說話,然後即時轉成文字。
可是實際做下去,你很快就會發現幾個問題。
第一,影片要原速播放。10 分鐘影片就是等 10 分鐘,1 小時影片就是等 1 小時。
第二,人要守在現場,不能丟著讓它背景批次跑。
第三,喇叭音量要夠大,麥克風也要收得乾淨。
第四,旁邊只要有人講話、冷氣聲太大、環境有雜音,辨識結果就可能被污染。
第五,它本來是「即時語音輸入工具」,不是「整份影音檔案轉字幕工具」。
所以講白話,如果你只是臨時想把一小段影片內容轉成文字,這樣繞一下可以。但如果你要處理超過 10 分鐘、半小時、一小時,甚至一整批影片,這個方法就很不實際。
這時候要用的工具類型,其實就要換了。
先分清楚:即時語音輸入,和整份檔案轉錄,是兩件事
我前面介紹過不少語音相關工具,大家有時候會把它們混在一起看。
像 Typeless、Wispr Flow、OpenLess Unbound,還有我之前測過的 Handy,比較接近「即時語音輸入」或「即時聽寫」。
它們適合什麼?
適合你正在寫信、寫文件、回訊息,然後懶得打字,直接用嘴巴講。它們也適合拿來做短句輸入、即時翻譯、臨時記錄。
可是如果你的目標是把一整個影片檔、錄音檔、會議錄音、Podcast、課程錄影丟進去,讓電腦自己在背景跑,最後吐出 SRT 字幕或逐字稿,那比較適合的是另一類工具。
例如我之前介紹過 Faster Whisper。另外像 Otter.ai、Notta.ai、ViiTor Translate、Meeting Ink,也都是比較接近語音內容整理、逐字稿或會議轉錄的工具。
這一類工具和 Typeless 最大的差別,是它們的目標比較接近「把一段語音內容整理成可回頭看的文字紀錄」。有些偏整份檔案轉錄,有些偏線上會議逐字稿,有些偏即時字幕與翻譯。雖然使用情境不完全一樣,但方向都比「把影片用喇叭播出來,再讓麥克風重收一次」合理很多。
這種做法比較適合影片上字幕、長音檔逐字稿和批次轉錄。
本地端語音轉文字工具,常見門檻是顯卡
不過本地端語音轉文字工具有一個很現實的門檻,就是硬體。
以 Whisper 類工具來說,CPU 當然也能跑。可是如果你要處理長音檔,尤其是半小時、一小時以上的內容,CPU 跑起來就容易變成「可以等,但不太想等」。
如果你有 NVIDIA 獨立顯卡,體驗會好很多。可是問題來了,不是每個人都有 RTX 顯卡。
很多人的工作電腦就是一般文書機。公司配的筆電也不一定有獨立顯卡。家裡電腦可能可以跑 Office、瀏覽器、簡單剪片,但要長時間跑本地 ASR 模型,就會開始吃力。
所以這類工具要真正普及,不能只照顧有高階 GPU 的人。它也要讓一般 CPU 使用者能用,至少要能順順把檔案轉完。
這就是我這次想介紹 QwenASRMiniTool 的原因。
QwenASRMiniTool 是什麼?
QwenASRMiniTool 是 GitHub 上的開源本地語音辨識字幕工具,由神人松音(@dseditor)製作發布。它基於 Qwen3-ASR,主要目標很清楚:讓一般 Windows 使用者可以在本機端做語音轉文字與字幕產生。
這個工具對一般使用者比較友善的地方,是它有免安裝版本。你不用自己架一大堆 Python 環境,也不用一開始就碰 CUDA、PyTorch、模型路徑、套件版本衝突。下載 release,解壓縮,執行 QwenASR.exe,基本上就可以開始用。
目前最新版是 QwenASR 1.0.8。這一版有幾個更新很有感:
- 新增「模型」分頁,把引擎、裝置、模型、路徑、下載來源、CPU 效能設定集中管理
- 端點網頁重新設計,支援瀏覽器即時錄音,停頓約 2 秒後自動上傳辨識
- QR code 改到對外臨時網址區塊右側,也可以下載 QR
- 修正遠端錄音容易掉句尾字的問題
- 音訊載入改用
soundfile + soxr,避開numpy + numba相容性問題 - 移除 Streamlit 服務,網頁服務統一改由內建「端點」分頁提供
簡單講,1.0.8 已經把舊版功能整理成一個比較完整的桌面應用。
為什麼它對沒有獨立顯卡的人比較友善?
QwenASRMiniTool 的 CPU 模式使用 OpenVINO INT8 量化模型。
這句話聽起來有點技術,我講白話一點。
OpenVINO 是 Intel 推的推理最佳化工具。INT8 量化則是把模型用比較小、比較省資源的格式來跑。這種做法比較在意一般 CPU 上的穩定度、速度和記憶體占用,不是只追求最高理論精度。
QwenASRMiniTool 預設可以用 Qwen3-ASR-0.6B 模型。這個模型比較小,比較適合一般 CPU 使用者先求可用。如果你想要更好的辨識效果,也可以切到 Qwen3-ASR-1.7B INT8,但模型比較大,第一次下載會比較久,也比較吃硬體。
作者實際使用 1.7B‑INT8 模型於 2021年配備 8 GB 記憶體、i5‑1135G7(2.4 GHz)CPU 的筆電上測試,辨識一小時的語音大約 1300 秒(即約 20 分鐘)。
在 1.0.8 的「模型」分頁裡,還可以看到 CPU 推理效能設定。預設是自動省電模式,大約使用 50% 到 70% 核心;如果你希望轉錄快一點,也可以切成全速,讓它使用所有邏輯核心。代價就是 CPU 會更忙,電腦可能比較熱,做其他事情也會比較卡。
這個設計其實很實用。因為很多工具只會跟你說「有 GPU 比較好」,但 QwenASRMiniTool 至少有認真照顧 CPU 使用者。
如果你有顯卡,也可以走 Vulkan GPU 模式
如果你的電腦有 NVIDIA、AMD 或 Intel Arc 顯卡,QwenASRMiniTool 的免安裝版也支援 Vulkan GPU 後端。
它這邊走的是 chatllm.cpp 的 Vulkan 後端,載入 Qwen3-ASR-1.7B GGUF bin 模型。好處是不用限定 NVIDIA,也不用安裝 CUDA 或 ROCm。只要你的顯卡與驅動支援 Vulkan,就有機會使用 GPU 加速。
對一般使用者來說,這比「請先安裝 CUDA、再裝 PyTorch、再處理套件版本」親切很多。
當然,如果你本來就熟 Python、PyTorch、CUDA,也想自己追原始碼或測試 CUDA 版本,GitHub source 仍然可以用。只是一般使用情境下,我會建議先從免安裝版開始,真的有需要再碰 source。
最基本用途:音檔或影片檔直接轉 SRT 字幕
QwenASRMiniTool 最核心的功能,就是把音訊或影片轉成 SRT 字幕。
音檔格式支援 MP3、WAV、FLAC、M4A、OGG 等。影片檔也可以直接丟,例如 MP4、MKV、AVI、MOV、WMV、WEBM 等。
這點很重要。
因為很多人做字幕時,第一個卡關點就是:我是不是要先把影片轉成純音檔?我要用什麼工具抽音軌?ffmpeg 怎麼下指令?
QwenASRMiniTool 把這一步包起來了。你可以直接選影片檔,它會透過 ffmpeg 自動抽音軌,再進行辨識。轉完後就會得到 .srt 字幕檔。
所以對一般使用者來說,流程會變成:
- 選擇影片或音訊檔
- 視需要輸入辨識提示
- 選擇是否啟用說話者分離與時間軸對齊
- 按下開始轉換
- 等待輸出 SRT
這樣就夠了。
辨識提示:讓模型知道你在講什麼
工具裡有一個「辨識提示」欄位,這個功能我覺得很值得用。
如果你要轉錄的是一般聊天,可能不填也沒關係。可是如果內容裡面有專有名詞、人名、產品名、課程主題、醫藥名詞、品牌名稱,建議先把這些關鍵字貼進去。
舉例來說,如果你在轉一段 AI 工具教學影片,你可以把工具名稱、模型名稱、常出現的英文關鍵字先放進提示裡。模型在辨識時比較容易往正確方向靠。
這不保證 100% 正確,但它會比完全不給上下文好很多。
說話者分離:Podcast、訪談、雙人對談會很有感
QwenASRMiniTool 也支援說話者分離。開啟後,SRT 裡可以標出「說話者1」「說話者2」這類標籤。
這功能最適合什麼?
最適合輪流說話的內容。像 Podcast、訪談、雙人對談、NotebookLM 產生的雙人語音摘要,效果會比較好。
如果是多人會議,而且大家常常同時講話、插話、重疊發言,那就不要期待它像真人速記員一樣完美。它可以幫你先分一版,但後面還是要人工檢查。
所以我的建議是,如果你知道大概有幾個人講話,可以直接指定人數。不要全部丟給自動偵測。已知是兩人對談,就選 2 人,通常會比讓它亂猜穩。
批次辨識:長影音工作最有感的功能
如果你只有一個檔案,手動轉就好。
可是如果你手上有一整個資料夾,例如一批課程錄影、一季 Podcast、很多段訪談錄音,批次辨識就很有用。
QwenASRMiniTool 有「批次辨識」分頁。你可以一次加入多個音訊或影片檔,讓它依序處理。每個檔案會顯示狀態、進度,完成後可以直接打開字幕驗證編輯器。
這個功能解決的是很實際的問題:你不用坐在電腦前面一個一個按。
只要模型和路徑都設好,就可以讓它慢慢跑。這種背景排隊處理,比一個一個手動按更適合長影音轉字幕。
字幕驗證與編輯:轉完後不用再另外找 SRT 編輯器
語音轉文字再怎麼強,都不可能每個字都對。
尤其是人名、品牌、英文縮寫、專有名詞、台灣口語、混合中英文,多少都會有錯字。SRT 的時間軸也可能有一點需要修。
QwenASRMiniTool 轉完後,可以開啟字幕驗證與編輯視窗。你可以逐段看字幕、播放該段音訊,然後修文字、調整說話者,最後另存成編輯版 SRT。
這個設計很重要。因為很多工具只負責「產生」,不管你後面怎麼修。可是字幕工作真正花時間的地方,常常是在校稿。
它把校稿入口放進工具裡,至少可以少切換幾個軟體。
錄製轉換:也能做即時語音轉字幕
除了檔案轉錄,QwenASRMiniTool 也有「錄製轉換」分頁。
它可以選擇麥克風輸入裝置,開始錄音後,系統會在你講話停頓時進行辨識。這比較像即時語音字幕,但不是那種逐字流式輸出。它會等你停一下,再把剛剛那段拿去辨識。
如果你要臨時錄一段說明、口述一段內容、把自己講話存成 SRT,這功能可以用。
不過如果你的主要需求是每天大量用語音打字,我仍然會把 Typeless、OpenLess、Wispr Flow 這類工具放在另一個類別來看。QwenASRMiniTool 的強項還是在「檔案轉錄」和「字幕產生」。
端點服務:手機或其他程式也能呼叫本機轉錄
1.0.8 這版另一個很方便的功能,是「端點」分頁。
啟用後,它會在本機開一個 OpenAI 相容的語音轉錄端點,外部程式可以用 POST /v1/audio/transcriptions 呼叫它。也就是說,你可以在遠端用任何兼容配置的程式把它當成私人專用的免費轉錄 API(因為使用的是自己本地 CPU 或 GPU 算力)。
它也提供內建網頁。你可以用瀏覽器上傳音檔或影片,甚至用手機連到同一個服務來錄音。新版還支援瀏覽器端即時錄音,說完停頓約 2 秒後自動上傳辨識。
如果在同一個區網內,這已經很方便。如果你真的需要從外網連回來,它也支援透過 Cloudflare 臨時通道建立對外網址,並顯示 QR code。
這裡要提醒一下,對外網址不要亂貼。
端點網址裡有存取金鑰,基本上就等於密碼。任何拿到完整網址或 QR 的人,都可以上傳音檔讓你的電腦轉錄,也會消耗你的 CPU 或 GPU。用完就關掉,不要把 QR 丟到公開群組。
模型與設定分頁:1.0.8 整理得比較像正式工具
新版介面有幾個分頁:
- 音檔轉字幕
- 批次辨識
- 錄製轉換
- 端點
- 模型
- 設定
其中「模型」分頁是這版很重要的更新。
你可以在這裡切換推理裝置、模型、模型路徑、下載來源,也可以設定 CPU 推理效能。如果 Hugging Face 下載很慢,還可以切換鏡像站。因為模型檔案動輒幾 GB,下載卡住會很煩。
「設定」分頁則包含語系、版本更新、深淺色模式、介面縮放、簡繁中文輸出、VAD Threshold、ffmpeg 路徑等。
我自己會建議第一次使用時先做幾件事:
- 到模型分頁確認現在用的是 CPU 還是 GPU
- 先用 0.6B 模型跑一小段檔案測試
- 如果覺得辨識不夠,再改 1.7B INT8
- 有顯卡再測 Vulkan GPU
- 設定分頁確認輸出是繁體中文
- 如果影片檔無法處理,再檢查 ffmpeg
先不用一開始就把所有模型都下載完。你先用一段短檔案確認自己的電腦跑得動,再決定要不要升級模型。
免安裝版怎麼用?
一般使用者我會建議先走免安裝版。
做法很簡單:
- 到 QwenASR 1.0.8 release 頁面
- 下載
QwenASR_1.0.8.zip或QwenASR_1.0.8.7z - 解壓縮到英文路徑,例如
C:\tools\QwenASR_1.0.8 - 執行 QwenASR.exe 或 start-gpu.bat
- 首次依照提示選擇模型與下載位置
如果你之前已經用過舊版 Portable,官方 README 也有提到,可以下載新版 Basic 或新版壓縮包後覆蓋既有資料夾。原本的 subtitles 輸出資料夾不會受影響。不過我自己會建議覆蓋前先備份設定檔與模型資料夾,避免路徑或模型搬動時搞混。
另外,安裝路徑建議用英文。不要放在有中文或特殊符號的資料夾,這類本地 AI 工具碰到路徑編碼問題時,常常會浪費很多除錯時間。
原始碼部署適合誰?
如果你只是要把影片轉字幕,免安裝版就夠了。
原始碼比較適合這幾種人:
- 你想追 GitHub 最新 commit
- 你想自己修改功能
- 你要除錯
- 你熟 Python 環境
- 你想測 PyTorch CUDA 路線
原始碼大致流程是:
git clone https://github.com/dseditor/QwenASRMiniTool.git
cd QwenASRMiniTool
python app.py如果你要跑 CUDA / PyTorch 版本,則是執行:
start-gpu.bat但這條路線比較吃環境。你要處理 Python、套件、torch、CUDA、模型下載等問題。對一般使用者來說,除非你本來就熟這些東西,不然先用 EXE 版會少很多麻煩。
使用上要先知道的限制
QwenASRMiniTool 很方便,但不能期待它像魔法一樣完全不用校正。
第一,辨識結果還是要校稿。
如果是正式影片字幕、課程教材、公開發布內容,轉完後一定要人工看過。
第二,說話者分離不是萬能。
輪流說話效果比較好,多人同時講話就容易亂。
第三,模型越大,效果通常越好,但也越吃硬體。
0.6B 適合先求可用;1.7B 會比較重;Vulkan GPU 需要顯卡與驅動支援。
第四,端點服務對外開放時要注意安全。
QR code 和完整網址不要外流,用完就停。
第五,長影音沒有雲端長度限制,但還是有本機時間成本。
它不用雲端計費,不代表不用等。你的 CPU、GPU、硬碟和散熱,還是會決定速度。
我會怎麼定位這個工具?
如果你的需求是每天用語音取代打字,我會叫你看 Typeless、OpenLess、Wispr Flow 這類工具。
如果你的需求是線上會議即時字幕、即時翻譯、會議摘要,你可以看 Otter.ai、Notta.ai 或 ViiTor Translate 這類服務。
可是如果你的需求是:
- 影片上字幕
- 錄音檔轉逐字稿
- Podcast 批次轉錄
- 課程錄影產生 SRT
- 本地端處理,不想上傳雲端
- 沒有高階獨立顯卡,但想先用 CPU 跑起來
那 QwenASRMiniTool 就很值得放進工具箱。
我喜歡它的地方,是它把很多零碎但必要的步驟都放在同一個流程裡。一般人不用先研究一堆工具,也能把影片丟進去,慢慢產出可修的字幕檔。
選檔、抽音軌、VAD 分段、辨識提示、說話者分離、批次處理、SRT 編輯、端點服務、模型下載、CPU/GPU 選擇。這些單獨看都不是新概念,但放在一個免安裝工具裡,門檻就低很多。
對很多人來說,工具最難的地方,常常是第一步太麻煩。
QwenASRMiniTool 這類工具的價值,就是讓你不用先變成 AI 工程師,也可以開始處理自己的影音內容。
📌您可能也會有興趣的其他文章
- 快速又免費的語音轉文字神器『Faster Whisper』,一鍵解決影音內容爆量時代的痛點!
- 不是主持人也能做筆記!Otter.ai、Notta.ai 線上會議即時轉錄逐字稿完整教學
- 免主持權限!用 ViiTor Translate 打造線上會議免費即時轉錄與雙語翻譯系統
- AI 會議紀錄神器:Meeting Ink 即時字幕翻譯+模板摘要
- Typeless 實測心得:一用就回不去的 AI 即時語音轉文字工具
留言
張貼留言