沒有獨立顯卡也能離線轉錄長影音？QwenASRMiniTool 免安裝 AI 語音轉字幕工具

作者：亞瑟 6月 15, 2026

前陣子有朋友看我介紹 Typeless 這類 AI 即時語音輸入工具之後，突然想到一個異想天開的用法。

他問我：那我是不是可以把影片播出來，然後開著 Typeless，讓它一邊聽、一邊幫影片上字幕，甚至順便做字幕翻譯？

這個想法當然不是不行。

如果只是 3 分鐘、5 分鐘的短影片，勉強可以玩一下。你把影片用喇叭播出來，電腦或手機麥克風收到聲音，Typeless 之類的工具就會把它當成你正在說話，然後即時轉成文字。

可是實際做下去，你很快就會發現幾個問題。

第一，影片要原速播放。10 分鐘影片就是等 10 分鐘，1 小時影片就是等 1 小時。
第二，人要守在現場，不能丟著讓它背景批次跑。
第三，喇叭音量要夠大，麥克風也要收得乾淨。
第四，旁邊只要有人講話、冷氣聲太大、環境有雜音，辨識結果就可能被污染。
第五，它本來是「即時語音輸入工具」，不是「整份影音檔案轉字幕工具」。

所以講白話，如果你只是臨時想把一小段影片內容轉成文字，這樣繞一下可以。但如果你要處理超過 10 分鐘、半小時、一小時，甚至一整批影片，這個方法就很不實際。

這時候要用的工具類型，其實就要換了。

先分清楚：即時語音輸入，和整份檔案轉錄，是兩件事

我前面介紹過不少語音相關工具，大家有時候會把它們混在一起看。

像 Typeless、Wispr Flow、OpenLess Unbound，還有我之前測過的 Handy，比較接近「即時語音輸入」或「即時聽寫」。

它們適合什麼？

適合你正在寫信、寫文件、回訊息，然後懶得打字，直接用嘴巴講。它們也適合拿來做短句輸入、即時翻譯、臨時記錄。

可是如果你的目標是把一整個影片檔、錄音檔、會議錄音、Podcast、課程錄影丟進去，讓電腦自己在背景跑，最後吐出 SRT 字幕或逐字稿，那比較適合的是另一類工具。

例如我之前介紹過 Faster Whisper。另外像 Otter.ai、Notta.ai、ViiTor Translate、Meeting Ink，也都是比較接近語音內容整理、逐字稿或會議轉錄的工具。

這一類工具和 Typeless 最大的差別，是它們的目標比較接近「把一段語音內容整理成可回頭看的文字紀錄」。有些偏整份檔案轉錄，有些偏線上會議逐字稿，有些偏即時字幕與翻譯。雖然使用情境不完全一樣，但方向都比「把影片用喇叭播出來，再讓麥克風重收一次」合理很多。

這種做法比較適合影片上字幕、長音檔逐字稿和批次轉錄。

本地端語音轉文字工具，常見門檻是顯卡

不過本地端語音轉文字工具有一個很現實的門檻，就是硬體。

以 Whisper 類工具來說，CPU 當然也能跑。可是如果你要處理長音檔，尤其是半小時、一小時以上的內容，CPU 跑起來就容易變成「可以等，但不太想等」。

如果你有 NVIDIA 獨立顯卡，體驗會好很多。可是問題來了，不是每個人都有 RTX 顯卡。

很多人的工作電腦就是一般文書機。公司配的筆電也不一定有獨立顯卡。家裡電腦可能可以跑 Office、瀏覽器、簡單剪片，但要長時間跑本地 ASR 模型，就會開始吃力。

所以這類工具要真正普及，不能只照顧有高階 GPU 的人。它也要讓一般 CPU 使用者能用，至少要能順順把檔案轉完。

這就是我這次想介紹 QwenASRMiniTool 的原因。

QwenASRMiniTool 是什麼？

QwenASRMiniTool 是 GitHub 上的開源本地語音辨識字幕工具，由神人松音(@dseditor)製作發布。它基於 Qwen3-ASR，主要目標很清楚：讓一般 Windows 使用者可以在本機端做語音轉文字與字幕產生。

這個工具對一般使用者比較友善的地方，是它有免安裝版本。你不用自己架一大堆 Python 環境，也不用一開始就碰 CUDA、PyTorch、模型路徑、套件版本衝突。下載 release，解壓縮，執行 QwenASR.exe，基本上就可以開始用。

目前最新版是 QwenASR 1.0.8。這一版有幾個更新很有感：

新增「模型」分頁，把引擎、裝置、模型、路徑、下載來源、CPU 效能設定集中管理
端點網頁重新設計，支援瀏覽器即時錄音，停頓約 2 秒後自動上傳辨識
QR code 改到對外臨時網址區塊右側，也可以下載 QR
修正遠端錄音容易掉句尾字的問題
音訊載入改用 soundfile + soxr，避開 numpy + numba 相容性問題
移除 Streamlit 服務，網頁服務統一改由內建「端點」分頁提供

簡單講，1.0.8 已經把舊版功能整理成一個比較完整的桌面應用。

為什麼它對沒有獨立顯卡的人比較友善？

QwenASRMiniTool 的 CPU 模式使用 OpenVINO INT8 量化模型。

這句話聽起來有點技術，我講白話一點。

OpenVINO 是 Intel 推的推理最佳化工具。INT8 量化則是把模型用比較小、比較省資源的格式來跑。這種做法比較在意一般 CPU 上的穩定度、速度和記憶體占用，不是只追求最高理論精度。

QwenASRMiniTool 預設可以用 Qwen3-ASR-0.6B 模型。這個模型比較小，比較適合一般 CPU 使用者先求可用。如果你想要更好的辨識效果，也可以切到 Qwen3-ASR-1.7B INT8，但模型比較大，第一次下載會比較久，也比較吃硬體。

作者實際使用 1.7B‑INT8 模型於 2021年配備 8 GB 記憶體、i5‑1135G7（2.4 GHz）CPU 的筆電上測試，辨識一小時的語音大約 1300 秒（即約 20 分鐘）。

在 1.0.8 的「模型」分頁裡，還可以看到 CPU 推理效能設定。預設是自動省電模式，大約使用 50% 到 70% 核心；如果你希望轉錄快一點，也可以切成全速，讓它使用所有邏輯核心。代價就是 CPU 會更忙，電腦可能比較熱，做其他事情也會比較卡。

這個設計其實很實用。因為很多工具只會跟你說「有 GPU 比較好」，但 QwenASRMiniTool 至少有認真照顧 CPU 使用者。

如果你有顯卡，也可以走 Vulkan GPU 模式

如果你的電腦有 NVIDIA、AMD 或 Intel Arc 顯卡，QwenASRMiniTool 的免安裝版也支援 Vulkan GPU 後端。

它這邊走的是 chatllm.cpp 的 Vulkan 後端，載入 Qwen3-ASR-1.7B GGUF bin 模型。好處是不用限定 NVIDIA，也不用安裝 CUDA 或 ROCm。只要你的顯卡與驅動支援 Vulkan，就有機會使用 GPU 加速。

對一般使用者來說，這比「請先安裝 CUDA、再裝 PyTorch、再處理套件版本」親切很多。

當然，如果你本來就熟 Python、PyTorch、CUDA，也想自己追原始碼或測試 CUDA 版本，GitHub source 仍然可以用。只是一般使用情境下，我會建議先從免安裝版開始，真的有需要再碰 source。

最基本用途：音檔或影片檔直接轉 SRT 字幕

QwenASRMiniTool 最核心的功能，就是把音訊或影片轉成 SRT 字幕。

音檔格式支援 MP3、WAV、FLAC、M4A、OGG 等。影片檔也可以直接丟，例如 MP4、MKV、AVI、MOV、WMV、WEBM 等。

這點很重要。

因為很多人做字幕時，第一個卡關點就是：我是不是要先把影片轉成純音檔？我要用什麼工具抽音軌？ffmpeg 怎麼下指令？

QwenASRMiniTool 把這一步包起來了。你可以直接選影片檔，它會透過 ffmpeg 自動抽音軌，再進行辨識。轉完後就會得到 .srt 字幕檔。

所以對一般使用者來說，流程會變成：

選擇影片或音訊檔
視需要輸入辨識提示
選擇是否啟用說話者分離與時間軸對齊
按下開始轉換
等待輸出 SRT

這樣就夠了。

辨識提示：讓模型知道你在講什麼

工具裡有一個「辨識提示」欄位，這個功能我覺得很值得用。

如果你要轉錄的是一般聊天，可能不填也沒關係。可是如果內容裡面有專有名詞、人名、產品名、課程主題、醫藥名詞、品牌名稱，建議先把這些關鍵字貼進去。

舉例來說，如果你在轉一段 AI 工具教學影片，你可以把工具名稱、模型名稱、常出現的英文關鍵字先放進提示裡。模型在辨識時比較容易往正確方向靠。

這不保證 100% 正確，但它會比完全不給上下文好很多。

說話者分離：Podcast、訪談、雙人對談會很有感

QwenASRMiniTool 也支援說話者分離。開啟後，SRT 裡可以標出「說話者1」「說話者2」這類標籤。

這功能最適合什麼？

最適合輪流說話的內容。像 Podcast、訪談、雙人對談、NotebookLM 產生的雙人語音摘要，效果會比較好。

如果是多人會議，而且大家常常同時講話、插話、重疊發言，那就不要期待它像真人速記員一樣完美。它可以幫你先分一版，但後面還是要人工檢查。

所以我的建議是，如果你知道大概有幾個人講話，可以直接指定人數。不要全部丟給自動偵測。已知是兩人對談，就選 2 人，通常會比讓它亂猜穩。

批次辨識：長影音工作最有感的功能

如果你只有一個檔案，手動轉就好。

可是如果你手上有一整個資料夾，例如一批課程錄影、一季 Podcast、很多段訪談錄音，批次辨識就很有用。

QwenASRMiniTool 有「批次辨識」分頁。你可以一次加入多個音訊或影片檔，讓它依序處理。每個檔案會顯示狀態、進度，完成後可以直接打開字幕驗證編輯器。

這個功能解決的是很實際的問題：你不用坐在電腦前面一個一個按。

只要模型和路徑都設好，就可以讓它慢慢跑。這種背景排隊處理，比一個一個手動按更適合長影音轉字幕。

字幕驗證與編輯：轉完後不用再另外找 SRT 編輯器

語音轉文字再怎麼強，都不可能每個字都對。

尤其是人名、品牌、英文縮寫、專有名詞、台灣口語、混合中英文，多少都會有錯字。SRT 的時間軸也可能有一點需要修。

QwenASRMiniTool 轉完後，可以開啟字幕驗證與編輯視窗。你可以逐段看字幕、播放該段音訊，然後修文字、調整說話者，最後另存成編輯版 SRT。

這個設計很重要。因為很多工具只負責「產生」，不管你後面怎麼修。可是字幕工作真正花時間的地方，常常是在校稿。

它把校稿入口放進工具裡，至少可以少切換幾個軟體。

錄製轉換：也能做即時語音轉字幕

除了檔案轉錄，QwenASRMiniTool 也有「錄製轉換」分頁。

它可以選擇麥克風輸入裝置，開始錄音後，系統會在你講話停頓時進行辨識。這比較像即時語音字幕，但不是那種逐字流式輸出。它會等你停一下，再把剛剛那段拿去辨識。

如果你要臨時錄一段說明、口述一段內容、把自己講話存成 SRT，這功能可以用。

不過如果你的主要需求是每天大量用語音打字，我仍然會把 Typeless、OpenLess、Wispr Flow 這類工具放在另一個類別來看。QwenASRMiniTool 的強項還是在「檔案轉錄」和「字幕產生」。

端點服務：手機或其他程式也能呼叫本機轉錄

1.0.8 這版另一個很方便的功能，是「端點」分頁。

啟用後，它會在本機開一個 OpenAI 相容的語音轉錄端點，外部程式可以用 POST /v1/audio/transcriptions 呼叫它。也就是說，你可以在遠端用任何兼容配置的程式把它當成私人專用的免費轉錄 API（因為使用的是自己本地 CPU 或 GPU 算力）。

它也提供內建網頁。你可以用瀏覽器上傳音檔或影片，甚至用手機連到同一個服務來錄音。新版還支援瀏覽器端即時錄音，說完停頓約 2 秒後自動上傳辨識。

如果在同一個區網內，這已經很方便。如果你真的需要從外網連回來，它也支援透過 Cloudflare 臨時通道建立對外網址，並顯示 QR code。

這裡要提醒一下，對外網址不要亂貼。

端點網址裡有存取金鑰，基本上就等於密碼。任何拿到完整網址或 QR 的人，都可以上傳音檔讓你的電腦轉錄，也會消耗你的 CPU 或 GPU。用完就關掉，不要把 QR 丟到公開群組。

模型與設定分頁：1.0.8 整理得比較像正式工具

新版介面有幾個分頁：

音檔轉字幕
批次辨識
錄製轉換
端點
模型
設定

其中「模型」分頁是這版很重要的更新。

你可以在這裡切換推理裝置、模型、模型路徑、下載來源，也可以設定 CPU 推理效能。如果 Hugging Face 下載很慢，還可以切換鏡像站。因為模型檔案動輒幾 GB，下載卡住會很煩。

「設定」分頁則包含語系、版本更新、深淺色模式、介面縮放、簡繁中文輸出、VAD Threshold、ffmpeg 路徑等。

我自己會建議第一次使用時先做幾件事：

到模型分頁確認現在用的是 CPU 還是 GPU
先用 0.6B 模型跑一小段檔案測試
如果覺得辨識不夠，再改 1.7B INT8
有顯卡再測 Vulkan GPU
設定分頁確認輸出是繁體中文
如果影片檔無法處理，再檢查 ffmpeg

先不用一開始就把所有模型都下載完。你先用一段短檔案確認自己的電腦跑得動，再決定要不要升級模型。

免安裝版怎麼用？

一般使用者我會建議先走免安裝版。

做法很簡單：

到 QwenASR 1.0.8 release 頁面
下載 QwenASR_1.0.8.zip 或 QwenASR_1.0.8.7z
解壓縮到英文路徑，例如 C:\tools\QwenASR_1.0.8
執行 QwenASR.exe 或 start-gpu.bat
首次依照提示選擇模型與下載位置

如果你之前已經用過舊版 Portable，官方 README 也有提到，可以下載新版 Basic 或新版壓縮包後覆蓋既有資料夾。原本的 subtitles 輸出資料夾不會受影響。不過我自己會建議覆蓋前先備份設定檔與模型資料夾，避免路徑或模型搬動時搞混。

另外，安裝路徑建議用英文。不要放在有中文或特殊符號的資料夾，這類本地 AI 工具碰到路徑編碼問題時，常常會浪費很多除錯時間。

原始碼部署適合誰？

如果你只是要把影片轉字幕，免安裝版就夠了。

原始碼比較適合這幾種人：

你想追 GitHub 最新 commit
你想自己修改功能
你要除錯
你熟 Python 環境
你想測 PyTorch CUDA 路線

原始碼大致流程是：

git clone https://github.com/dseditor/QwenASRMiniTool.git
cd QwenASRMiniTool
python app.py

如果你要跑 CUDA / PyTorch 版本，則是執行：

start-gpu.bat

但這條路線比較吃環境。你要處理 Python、套件、torch、CUDA、模型下載等問題。對一般使用者來說，除非你本來就熟這些東西，不然先用 EXE 版會少很多麻煩。

使用上要先知道的限制

QwenASRMiniTool 很方便，但不能期待它像魔法一樣完全不用校正。

第一，辨識結果還是要校稿。
如果是正式影片字幕、課程教材、公開發布內容，轉完後一定要人工看過。

第二，說話者分離不是萬能。
輪流說話效果比較好，多人同時講話就容易亂。

第三，模型越大，效果通常越好，但也越吃硬體。
0.6B 適合先求可用；1.7B 會比較重；Vulkan GPU 需要顯卡與驅動支援。

第四，端點服務對外開放時要注意安全。
QR code 和完整網址不要外流，用完就停。

第五，長影音沒有雲端長度限制，但還是有本機時間成本。
它不用雲端計費，不代表不用等。你的 CPU、GPU、硬碟和散熱，還是會決定速度。

我會怎麼定位這個工具？

如果你的需求是每天用語音取代打字，我會叫你看 Typeless、OpenLess、Wispr Flow 這類工具。

如果你的需求是線上會議即時字幕、即時翻譯、會議摘要，你可以看 Otter.ai、Notta.ai 或 ViiTor Translate 這類服務。

可是如果你的需求是：

影片上字幕
錄音檔轉逐字稿
Podcast 批次轉錄
課程錄影產生 SRT
本地端處理，不想上傳雲端
沒有高階獨立顯卡，但想先用 CPU 跑起來

那 QwenASRMiniTool 就很值得放進工具箱。

我喜歡它的地方，是它把很多零碎但必要的步驟都放在同一個流程裡。一般人不用先研究一堆工具，也能把影片丟進去，慢慢產出可修的字幕檔。

選檔、抽音軌、VAD 分段、辨識提示、說話者分離、批次處理、SRT 編輯、端點服務、模型下載、CPU/GPU 選擇。這些單獨看都不是新概念，但放在一個免安裝工具裡，門檻就低很多。

對很多人來說，工具最難的地方，常常是第一步太麻煩。

QwenASRMiniTool 這類工具的價值，就是讓你不用先變成 AI 工程師，也可以開始處理自己的影音內容。

搜尋此網誌

亞瑟 ASK - 職涯隨筆與生活漫談