沒有獨立顯卡也能離線轉錄長影音?QwenASRMiniTool 免安裝 AI 語音轉字幕工具


前陣子有朋友看我介紹 Typeless 這類 AI 即時語音輸入工具 之後,突然想到一個異想天開的用法。

他問我:那我是不是可以把影片播出來,然後開著 Typeless,讓它一邊聽、一邊幫影片上字幕,甚至順便做字幕翻譯?

這個想法當然不是不行。

如果只是 3 分鐘、5 分鐘的短影片,勉強可以玩一下。你把影片用喇叭播出來,電腦或手機麥克風收到聲音,Typeless 之類的工具就會把它當成你正在說話,然後即時轉成文字。

可是實際做下去,你很快就會發現幾個問題。

第一,影片要原速播放。10 分鐘影片就是等 10 分鐘,1 小時影片就是等 1 小時。
第二,人要守在現場,不能丟著讓它背景批次跑。
第三,喇叭音量要夠大,麥克風也要收得乾淨。
第四,旁邊只要有人講話、冷氣聲太大、環境有雜音,辨識結果就可能被污染。
第五,它本來是「即時語音輸入工具」,不是「整份影音檔案轉字幕工具」。

所以講白話,如果你只是臨時想把一小段影片內容轉成文字,這樣繞一下可以。但如果你要處理超過 10 分鐘、半小時、一小時,甚至一整批影片,這個方法就很不實際。

這時候要用的工具類型,其實就要換了。



先分清楚:即時語音輸入,和整份檔案轉錄,是兩件事

我前面介紹過不少語音相關工具,大家有時候會把它們混在一起看。

TypelessWispr FlowOpenLess Unbound,還有我之前測過的 Handy,比較接近「即時語音輸入」或「即時聽寫」。

它們適合什麼?

適合你正在寫信、寫文件、回訊息,然後懶得打字,直接用嘴巴講。它們也適合拿來做短句輸入、即時翻譯、臨時記錄。

可是如果你的目標是把一整個影片檔、錄音檔、會議錄音、Podcast、課程錄影丟進去,讓電腦自己在背景跑,最後吐出 SRT 字幕或逐字稿,那比較適合的是另一類工具。

例如我之前介紹過 Faster Whisper。另外像 Otter.ai、Notta.aiViiTor TranslateMeeting Ink,也都是比較接近語音內容整理、逐字稿或會議轉錄的工具。

這一類工具和 Typeless 最大的差別,是它們的目標比較接近「把一段語音內容整理成可回頭看的文字紀錄」。有些偏整份檔案轉錄,有些偏線上會議逐字稿,有些偏即時字幕與翻譯。雖然使用情境不完全一樣,但方向都比「把影片用喇叭播出來,再讓麥克風重收一次」合理很多。

這種做法比較適合影片上字幕、長音檔逐字稿和批次轉錄。


本地端語音轉文字工具,常見門檻是顯卡

不過本地端語音轉文字工具有一個很現實的門檻,就是硬體。

以 Whisper 類工具來說,CPU 當然也能跑。可是如果你要處理長音檔,尤其是半小時、一小時以上的內容,CPU 跑起來就容易變成「可以等,但不太想等」。

如果你有 NVIDIA 獨立顯卡,體驗會好很多。可是問題來了,不是每個人都有 RTX 顯卡。

很多人的工作電腦就是一般文書機。公司配的筆電也不一定有獨立顯卡。家裡電腦可能可以跑 Office、瀏覽器、簡單剪片,但要長時間跑本地 ASR 模型,就會開始吃力。

所以這類工具要真正普及,不能只照顧有高階 GPU 的人。它也要讓一般 CPU 使用者能用,至少要能順順把檔案轉完。

這就是我這次想介紹 QwenASRMiniTool 的原因。


QwenASRMiniTool 是什麼?

QwenASRMiniTool 是 GitHub 上的開源本地語音辨識字幕工具,由神人松音(@dseditor)製作發布。它基於 Qwen3-ASR,主要目標很清楚:讓一般 Windows 使用者可以在本機端做語音轉文字與字幕產生。

這個工具對一般使用者比較友善的地方,是它有免安裝版本。你不用自己架一大堆 Python 環境,也不用一開始就碰 CUDA、PyTorch、模型路徑、套件版本衝突。下載 release,解壓縮,執行 QwenASR.exe,基本上就可以開始用。

目前最新版是 QwenASR 1.0.8。這一版有幾個更新很有感:

  • 新增「模型」分頁,把引擎、裝置、模型、路徑、下載來源、CPU 效能設定集中管理
  • 端點網頁重新設計,支援瀏覽器即時錄音,停頓約 2 秒後自動上傳辨識
  • QR code 改到對外臨時網址區塊右側,也可以下載 QR
  • 修正遠端錄音容易掉句尾字的問題
  • 音訊載入改用 soundfile + soxr,避開 numpy + numba 相容性問題
  • 移除 Streamlit 服務,網頁服務統一改由內建「端點」分頁提供

簡單講,1.0.8 已經把舊版功能整理成一個比較完整的桌面應用。


為什麼它對沒有獨立顯卡的人比較友善?

QwenASRMiniTool 的 CPU 模式使用 OpenVINO INT8 量化模型。

這句話聽起來有點技術,我講白話一點。

OpenVINO 是 Intel 推的推理最佳化工具。INT8 量化則是把模型用比較小、比較省資源的格式來跑。這種做法比較在意一般 CPU 上的穩定度、速度和記憶體占用,不是只追求最高理論精度。

QwenASRMiniTool 預設可以用 Qwen3-ASR-0.6B 模型。這個模型比較小,比較適合一般 CPU 使用者先求可用。如果你想要更好的辨識效果,也可以切到 Qwen3-ASR-1.7B INT8,但模型比較大,第一次下載會比較久,也比較吃硬體。

作者實際使用 1.7B‑INT8 模型於 2021年配備 8 GB 記憶體、i5‑1135G7(2.4 GHz)CPU 的筆電上測試,辨識一小時的語音大約 1300 秒(即約 20 分鐘)。

在 1.0.8 的「模型」分頁裡,還可以看到 CPU 推理效能設定。預設是自動省電模式,大約使用 50% 到 70% 核心;如果你希望轉錄快一點,也可以切成全速,讓它使用所有邏輯核心。代價就是 CPU 會更忙,電腦可能比較熱,做其他事情也會比較卡。

這個設計其實很實用。因為很多工具只會跟你說「有 GPU 比較好」,但 QwenASRMiniTool 至少有認真照顧 CPU 使用者。


如果你有顯卡,也可以走 Vulkan GPU 模式

如果你的電腦有 NVIDIA、AMD 或 Intel Arc 顯卡,QwenASRMiniTool 的免安裝版也支援 Vulkan GPU 後端。

它這邊走的是 chatllm.cpp 的 Vulkan 後端,載入 Qwen3-ASR-1.7B GGUF bin 模型。好處是不用限定 NVIDIA,也不用安裝 CUDA 或 ROCm。只要你的顯卡與驅動支援 Vulkan,就有機會使用 GPU 加速。

對一般使用者來說,這比「請先安裝 CUDA、再裝 PyTorch、再處理套件版本」親切很多。

當然,如果你本來就熟 Python、PyTorch、CUDA,也想自己追原始碼或測試 CUDA 版本,GitHub source 仍然可以用。只是一般使用情境下,我會建議先從免安裝版開始,真的有需要再碰 source。


最基本用途:音檔或影片檔直接轉 SRT 字幕

QwenASRMiniTool 最核心的功能,就是把音訊或影片轉成 SRT 字幕。

音檔格式支援 MP3、WAV、FLAC、M4A、OGG 等。影片檔也可以直接丟,例如 MP4、MKV、AVI、MOV、WMV、WEBM 等。

這點很重要。

因為很多人做字幕時,第一個卡關點就是:我是不是要先把影片轉成純音檔?我要用什麼工具抽音軌?ffmpeg 怎麼下指令?

QwenASRMiniTool 把這一步包起來了。你可以直接選影片檔,它會透過 ffmpeg 自動抽音軌,再進行辨識。轉完後就會得到 .srt 字幕檔。

所以對一般使用者來說,流程會變成:

  1. 選擇影片或音訊檔
  2. 視需要輸入辨識提示
  3. 選擇是否啟用說話者分離與時間軸對齊
  4. 按下開始轉換
  5. 等待輸出 SRT

這樣就夠了。


辨識提示:讓模型知道你在講什麼

工具裡有一個「辨識提示」欄位,這個功能我覺得很值得用。

如果你要轉錄的是一般聊天,可能不填也沒關係。可是如果內容裡面有專有名詞、人名、產品名、課程主題、醫藥名詞、品牌名稱,建議先把這些關鍵字貼進去。

舉例來說,如果你在轉一段 AI 工具教學影片,你可以把工具名稱、模型名稱、常出現的英文關鍵字先放進提示裡。模型在辨識時比較容易往正確方向靠。

這不保證 100% 正確,但它會比完全不給上下文好很多。


說話者分離:Podcast、訪談、雙人對談會很有感

QwenASRMiniTool 也支援說話者分離。開啟後,SRT 裡可以標出「說話者1」「說話者2」這類標籤。

這功能最適合什麼?

最適合輪流說話的內容。像 Podcast、訪談、雙人對談、NotebookLM 產生的雙人語音摘要,效果會比較好。

如果是多人會議,而且大家常常同時講話、插話、重疊發言,那就不要期待它像真人速記員一樣完美。它可以幫你先分一版,但後面還是要人工檢查。

所以我的建議是,如果你知道大概有幾個人講話,可以直接指定人數。不要全部丟給自動偵測。已知是兩人對談,就選 2 人,通常會比讓它亂猜穩。


批次辨識:長影音工作最有感的功能

如果你只有一個檔案,手動轉就好。

可是如果你手上有一整個資料夾,例如一批課程錄影、一季 Podcast、很多段訪談錄音,批次辨識就很有用。

QwenASRMiniTool 有「批次辨識」分頁。你可以一次加入多個音訊或影片檔,讓它依序處理。每個檔案會顯示狀態、進度,完成後可以直接打開字幕驗證編輯器。

這個功能解決的是很實際的問題:你不用坐在電腦前面一個一個按。

只要模型和路徑都設好,就可以讓它慢慢跑。這種背景排隊處理,比一個一個手動按更適合長影音轉字幕。


字幕驗證與編輯:轉完後不用再另外找 SRT 編輯器

語音轉文字再怎麼強,都不可能每個字都對。

尤其是人名、品牌、英文縮寫、專有名詞、台灣口語、混合中英文,多少都會有錯字。SRT 的時間軸也可能有一點需要修。

QwenASRMiniTool 轉完後,可以開啟字幕驗證與編輯視窗。你可以逐段看字幕、播放該段音訊,然後修文字、調整說話者,最後另存成編輯版 SRT。

這個設計很重要。因為很多工具只負責「產生」,不管你後面怎麼修。可是字幕工作真正花時間的地方,常常是在校稿。

它把校稿入口放進工具裡,至少可以少切換幾個軟體。


錄製轉換:也能做即時語音轉字幕

除了檔案轉錄,QwenASRMiniTool 也有「錄製轉換」分頁。

它可以選擇麥克風輸入裝置,開始錄音後,系統會在你講話停頓時進行辨識。這比較像即時語音字幕,但不是那種逐字流式輸出。它會等你停一下,再把剛剛那段拿去辨識。

如果你要臨時錄一段說明、口述一段內容、把自己講話存成 SRT,這功能可以用。

不過如果你的主要需求是每天大量用語音打字,我仍然會把 Typeless、OpenLess、Wispr Flow 這類工具放在另一個類別來看。QwenASRMiniTool 的強項還是在「檔案轉錄」和「字幕產生」。


端點服務:手機或其他程式也能呼叫本機轉錄

1.0.8 這版另一個很方便的功能,是「端點」分頁。

啟用後,它會在本機開一個 OpenAI 相容的語音轉錄端點,外部程式可以用 POST /v1/audio/transcriptions 呼叫它。也就是說,你可以在遠端用任何兼容配置的程式把它當成私人專用的免費轉錄 API(因為使用的是自己本地 CPU 或 GPU 算力)。

它也提供內建網頁。你可以用瀏覽器上傳音檔或影片,甚至用手機連到同一個服務來錄音。新版還支援瀏覽器端即時錄音,說完停頓約 2 秒後自動上傳辨識。

如果在同一個區網內,這已經很方便。如果你真的需要從外網連回來,它也支援透過 Cloudflare 臨時通道建立對外網址,並顯示 QR code。

這裡要提醒一下,對外網址不要亂貼。

端點網址裡有存取金鑰,基本上就等於密碼。任何拿到完整網址或 QR 的人,都可以上傳音檔讓你的電腦轉錄,也會消耗你的 CPU 或 GPU。用完就關掉,不要把 QR 丟到公開群組。


模型與設定分頁:1.0.8 整理得比較像正式工具

新版介面有幾個分頁:

  • 音檔轉字幕
  • 批次辨識
  • 錄製轉換
  • 端點
  • 模型
  • 設定

其中「模型」分頁是這版很重要的更新。

你可以在這裡切換推理裝置、模型、模型路徑、下載來源,也可以設定 CPU 推理效能。如果 Hugging Face 下載很慢,還可以切換鏡像站。因為模型檔案動輒幾 GB,下載卡住會很煩。

「設定」分頁則包含語系、版本更新、深淺色模式、介面縮放、簡繁中文輸出、VAD Threshold、ffmpeg 路徑等。

我自己會建議第一次使用時先做幾件事:

  1. 到模型分頁確認現在用的是 CPU 還是 GPU
  2. 先用 0.6B 模型跑一小段檔案測試
  3. 如果覺得辨識不夠,再改 1.7B INT8
  4. 有顯卡再測 Vulkan GPU
  5. 設定分頁確認輸出是繁體中文
  6. 如果影片檔無法處理,再檢查 ffmpeg

先不用一開始就把所有模型都下載完。你先用一段短檔案確認自己的電腦跑得動,再決定要不要升級模型。


免安裝版怎麼用?

一般使用者我會建議先走免安裝版。

做法很簡單:

  1. QwenASR 1.0.8 release 頁面
  2. 下載 QwenASR_1.0.8.zipQwenASR_1.0.8.7z
  3. 解壓縮到英文路徑,例如 C:\tools\QwenASR_1.0.8
  4. 執行 QwenASR.exe 或 start-gpu.bat 
  5. 首次依照提示選擇模型與下載位置

如果你之前已經用過舊版 Portable,官方 README 也有提到,可以下載新版 Basic 或新版壓縮包後覆蓋既有資料夾。原本的 subtitles 輸出資料夾不會受影響。不過我自己會建議覆蓋前先備份設定檔與模型資料夾,避免路徑或模型搬動時搞混。

另外,安裝路徑建議用英文。不要放在有中文或特殊符號的資料夾,這類本地 AI 工具碰到路徑編碼問題時,常常會浪費很多除錯時間。


原始碼部署適合誰?

如果你只是要把影片轉字幕,免安裝版就夠了。

原始碼比較適合這幾種人:

  • 你想追 GitHub 最新 commit
  • 你想自己修改功能
  • 你要除錯
  • 你熟 Python 環境
  • 你想測 PyTorch CUDA 路線

原始碼大致流程是:

git clone https://github.com/dseditor/QwenASRMiniTool.git
cd QwenASRMiniTool
python app.py

如果你要跑 CUDA / PyTorch 版本,則是執行:

start-gpu.bat

但這條路線比較吃環境。你要處理 Python、套件、torch、CUDA、模型下載等問題。對一般使用者來說,除非你本來就熟這些東西,不然先用 EXE 版會少很多麻煩。


使用上要先知道的限制

QwenASRMiniTool 很方便,但不能期待它像魔法一樣完全不用校正。

第一,辨識結果還是要校稿。
如果是正式影片字幕、課程教材、公開發布內容,轉完後一定要人工看過。

第二,說話者分離不是萬能。
輪流說話效果比較好,多人同時講話就容易亂。

第三,模型越大,效果通常越好,但也越吃硬體。
0.6B 適合先求可用;1.7B 會比較重;Vulkan GPU 需要顯卡與驅動支援。

第四,端點服務對外開放時要注意安全。
QR code 和完整網址不要外流,用完就停。

第五,長影音沒有雲端長度限制,但還是有本機時間成本。
它不用雲端計費,不代表不用等。你的 CPU、GPU、硬碟和散熱,還是會決定速度。


我會怎麼定位這個工具?

如果你的需求是每天用語音取代打字,我會叫你看 Typeless、OpenLess、Wispr Flow 這類工具。

如果你的需求是線上會議即時字幕、即時翻譯、會議摘要,你可以看 Otter.ai、Notta.aiViiTor Translate 這類服務。

可是如果你的需求是:

  • 影片上字幕
  • 錄音檔轉逐字稿
  • Podcast 批次轉錄
  • 課程錄影產生 SRT
  • 本地端處理,不想上傳雲端
  • 沒有高階獨立顯卡,但想先用 CPU 跑起來

QwenASRMiniTool 就很值得放進工具箱。

我喜歡它的地方,是它把很多零碎但必要的步驟都放在同一個流程裡。一般人不用先研究一堆工具,也能把影片丟進去,慢慢產出可修的字幕檔。

選檔、抽音軌、VAD 分段、辨識提示、說話者分離、批次處理、SRT 編輯、端點服務、模型下載、CPU/GPU 選擇。這些單獨看都不是新概念,但放在一個免安裝工具裡,門檻就低很多。

對很多人來說,工具最難的地方,常常是第一步太麻煩。

QwenASRMiniTool 這類工具的價值,就是讓你不用先變成 AI 工程師,也可以開始處理自己的影音內容。


📌您可能也會有興趣的其他文章

參考連結

留言

熱門文章

Gemini Voyager 教學:資料夾管理、引用回覆、去浮水印一次搞定

用AI一鍵生成簡報PPT投影片真的有那麼神?全網最詳細AI簡報工具彙整與實測心得

為什麼 Nystatin(制黴菌素)要「漱口或塗抹」,不是直接吞?完整解析與用法指南

Google AI Pro 隱藏福利!每月 10 美元額度怎麼領?完整設定步驟 + 安全防護

快速又免費的語音轉文字神器『Faster Whisper』,一鍵解決影音內容爆量時代的痛點!

Windows 桌面圖示每次重新開機或外接螢幕就跑位亂移?從設定排除到 DesktopOK 一鍵還原完整攻略

微軟 Copilot 全新語音功能重磅來襲!免費無限暢聊,直球對決 ChatGPT 進階語音模式!

AI 語音助理新革命:Copilot Vision 無限免費、視覺功能全開,完整評比 ChatGPT 進階模式

G6PD 缺乏者的抗生素選擇指南|社區診所常見處方與藥師建議一次搞懂

打字太慢?試試 Wispr Flow:神速 AI 即時語音輸入讓你效率翻 4 倍