又多一款好用備案!Vibing 免費即時語音轉文字工具實測分享
為什麼我還是會一直關注即時語音轉文字工具?
過去這段時間,我曾經在部落格上跟大家介紹過不少即時語音輸入、AI 語音轉文字的工具。
對我來說,這類工具真的不嫌多。
原因很簡單。這種工具有時候會臨時失效,有時候免費額度一下就用完。多準備幾套順手的工具,平常切換起來會更安心。
過去我介紹過的一些商用工具,像是 Wispr Flow、Typeless,整體表現其實都很不錯。
不管是轉寫速度、即時翻譯,還是後續的條列整理、分段排版,很多都做得很成熟。甚至有些工具還會加上語音助理的功能,用起來確實很方便。
不過,商用工具畢竟還是要考慮成本。
就算有些服務每個月提供 2000 字、4000 字,甚至有些現在已經提高到 8000 字的免費額度,對重度使用者來說,還是很可能不夠用。
當然,本地端其實也有不錯的選擇。像 Handy 我自己就蠻常用的。
不過純本地端的語音轉路工具,如果電腦沒有獨立顯卡,只靠 CPU 來跑模型,等待時間通常就會比較長。這件事情其實很殘酷。語音轉文字的品質、模型大小、等待時間,很多時候就是要自己去抓一個平衡。
Vibing 是什麼?
而我這兩天又看到一款新的開源工具,叫做 Vibing。
它主打的也是即時語音轉文字,而且它背後採用的,是 Microsoft 最近開源的 VibeVoice 模型。
VibeVoice 本身是一個自動語音辨識模型,也就是常說的 ASR(Automatic Speech Recognition)。根據目前公開的資料,它支援超過 50 種語言,也強調可以一次性處理長達一小時的語音內容。
這一點為什麼值得注意?
因為傳統的語音辨識模型,很多時候需要先把音訊切成很多小段來處理。這樣做不是不行,但有時候前後文就比較容易斷掉。如果模型本身可以一次看更長的語音內容,那在整體語意理解、一致性判斷,甚至講者追蹤上,理論上都會比較有優勢。
根據官方介紹,VibeVoice 除了長音訊處理之外,也支援時間戳、講者區分、內容結構化,還有熱詞標記等能力。
講白話一點,它不只是把聲音轉成文字而已,而是希望把整段語音內容整理得更完整、更有脈絡。
安裝方式很簡單
而現在開源社群已經把這個模型包裝成一套可以直接使用的桌面工具,也就是我這次想介紹的 Vibing。
目前 Vibing 才剛發布,版本還是 v0.1.0。不過它已經有提供 Windows 跟 Mac 的桌面版本。
Windows 使用者可以直接下載安裝,流程算是很直覺。Mac 的部分相對複雜一點,不過官方也有提供安裝教學,照著做基本上就能完成。
介面不花俏,但很直觀
實際打開之後,你會發現 Vibing 的介面很簡單,沒有太多花俏的設計,功能也算是相當直白。它就是一套專注在即時語音轉文字的工具。
我簡單整理一下,它目前幾個比較值得注意的地方,大概有這些:
- Home 頁面說明直接用來收音與轉寫的快捷鍵
- 支援語音翻譯
- History 頁面會保留剛剛講過的文字
- 可設定 Hotword 熱詞
- 有一些額外的辨識優化與文字整理選項
Home、翻譯與 History 頁面的實際體驗
先看 Home 頁面。
它會顯示預設快捷鍵,也可以手動修改。你可以用按住快捷鍵不放的方式說話,放開之後完成轉寫;也可以按一次開始,再按第二次結束。這種操作方式很直覺,而且轉寫速度真的相當快。
除了基本轉寫之外,它也支援翻譯功能。你可以直接用自己的語言輸入,然後把內容轉成指定語言。如果你平常有中英切換需求,這個功能其實很方便。
第二個分頁是 History。這裡會保留你剛剛講過的文字內容。
對於需要回頭複製、整理,或只是想確認剛剛講了什麼的人來說,這個設計很實用。你可以個別選取、複製,也可以單筆刪除,或一次清空。
Hotword 熱詞功能也很實用
另外,介面裡也有 Hotword 熱詞相關設定。這個功能我自己覺得蠻實用,因為它可以針對你常講的專有名詞、品牌名稱、工具名稱,先做額外標記。
如果你平常常講 AI 工具名稱、英文產品名、技術名詞,或是自己工作裡常出現的一些專用詞,Hotword 這種功能其實很有幫助。
它不一定百分之百,但至少在某些場景下,可以降低同音字亂跑,或專有名詞被辨識錯的機率。
很有趣的是,一安裝完官方就已經把 OpenClaw (俗稱龍蝦) 跟 Claude 這幾個最火紅的 Vibe coding 跟 AI agent 工具都自動化工具內建為常用名詞了,到底是有多夯🤣
(有機會我再來教大家龍蝦要怎麼部署跟自動化使用....)
幾個可一起打開的設定
再來是設定頁面裡的幾個選項。像是亮色 / 暗色模式這種基本選項就不多說了。比較值得留意的是,裡面還有像 enhanced intent recognition 這類功能,以及 AI polishing 這類文字優化選項。
從概念上來看,這些設定就是希望讓系統在辨識文字時,不只是照聲音硬轉,而是能多參考一些上下文,順便把輸出的文字整理得更自然。
如果你平常本來就很依賴語音輸入,我會傾向把這些選項先打開,再看自己的實際使用感受。
我自己的實測感想
我自己實際測試下來,Vibing 的速度表現確實不錯。
就即時轉寫的反應來說,跟我平常常用的一些商用工具相比,不會差太多。而且它也會自動補上標點,對一般日常輸入來說已經很夠用了。
當然,它目前不是那種功能非常完整的大型商用產品。
像是更進階的條列整理、內容重組、段落優化,這些額外功能它現在就沒有那麼強。不過如果你的需求很單純,就是想要一套免費、快速、介面簡潔的即時語音轉文字工具,那 Vibing 確實值得試試看。
下面附上兩段我實際測試的效果,給各位讀者評鑑一下。一段是中文的即時轉錄,另一段是講中文、輸出英文的即時翻譯。
總結:很適合收進備用清單
我自己會怎麼看這款工具?
我覺得它不一定會直接取代你現在手上最常用的主力工具,但它很適合成為備用清單裡的一員。尤其如果你平常本來就會大量使用語音輸入,那多一套好用、免費、上手快的工具,很多時候真的很有幫助。
如果你最近也正在找新的即時語音轉文字工具,或者你本來就對 AI 工具、Vibe Coding、語音工作流這類主題有興趣,那這款新推出的 Vibing,我覺得可以先裝起來試試看。
留言
張貼留言