免費又離線!Handy 即時語音轉文字實測:不用上傳也能快又準
▋打字太慢不是你的錯,是鍵盤太慢
你有沒有這種時刻?
腦袋已經想好三句話了,手指還在第一句的第三個字打錯。
你不是不努力,你只是「手指追不上腦袋」。
尤其是工作上要回訊息、寫 mail、整理會議重點、寫簡報講稿。
每一件事都不難,難的是:你要打得夠快,還要打得夠準。
所以我過往時常在測各種「語音轉文字」工具。
我的目標很單純:在電腦上即時語音輸入,讓我用講的就能輸出文字。
而且要更安心、更穩,不要講了一大段,最後才發現整段不見。
這篇我會接著之前的工具分享,來介紹我最近用到的一款新工具:Handy。
它的特色很直白:離線、免費、開源,而且實際用起來速度飛快。
如果你跟我一樣常常要把腦袋的東西「快速倒出來」,你應該會很有感。
▋我這幾個月測過的語音轉文字工具,怎麼分工
其實從 9 月到 10 月,我陸續寫了幾篇「語音轉文字」相關的工具文。
每一款我都真的有放進日常工作裡用,不是只看介紹就下結論。
我之前寫過的四篇,主要是這些路線:
-
即時語音輸入(打字加速器):Wispr Flow
-
錄音檔上傳後,快速產出逐字稿:NotebookLM
-
線上會議即時字幕/轉錄(含付費工具):Otter.ai、Notta.ai
-
免主持權限的線上會議即時轉錄/雙語:ViiTor Translate
而我自己現在的分工,其實很固定:
-
即時輸入:我最常用的是 Wispr Flow
我用它回訊息、寫段落、補簡報句子,真的很省時間。 -
事後長音檔逐字稿:我用 NotebookLM
研討會、會議錄音,丟進去很快就能抓重點,效率超高。 -
線上會議即時字幕/轉錄:我會用 Otter / Notta,或是 ViiTor Translate
看需求選,有時候是想要字幕,有時候是想要雙語或免費替代方案。
這一套用下來其實很順。
但老實說,當我把「即時語音輸入」用得越頻繁,我就越容易撞到一個現實問題:網路。
▋但 Wispr Flow 用久了,可能會遇到 4 個「現實問題」
先說清楚一件事。
我不是要否定 Wispr Flow。
它依然是一款我覺得很好用、也真的幫我省下很多時間的工具。
只是,用得越久、用得越頻繁,一些現實面的限制就會慢慢浮出來。
第一個問題:額度限制,平常沒感覺,用多了會遇到
Wispr Flow 的免費方案,本來就有每月額度。
以官方說明來看,是以「英文字數」為基準。
實際用起來,中英文的體感差異其實滿明顯的。
中文在正常使用下,通常不太容易踩線。
但如果你英文講得多,或是連續用來口述長段內容,還是會開始注意到額度在掉。
它不是不能用。
只是你會開始「心裡有一條線」,知道這個月差不多了,要省著用。
第二個問題:一定要連網,網路一差就很痛
這個是我自己最有感、也真的踩過雷的地方。
因為 Wispr Flow 是雲端處理,
所以它一定要「錄完 → 上傳 → 轉文字 → 再回來」。
大多數時候都很順。
但只要你遇到網路不穩,事情就會開始變得很刺激。
我就遇過幾次這種情況:
我已經講了一大段,覺得自己講得不錯,
結果等了一下,發現沒有成功上傳,也沒有成功下載。
那一刻的感覺很簡單:
剛剛那一整段,白講了。
從那之後,我就會刻意控制:
-
句子不要太長
-
一小段一小段講
-
不敢一次錄太久
這其實會影響你原本想要「順順講、一次倒出來」的流暢感。
第三個問題:隱私顧慮,不是每段話都適合上雲
還有一個比較現實、但不能不想的點:隱私。
如果你只是寫文章、記筆記、回一般訊息,其實沒什麼問題。
但有些情境,真的會讓人猶豫要不要按下錄音鍵。
例如:
-
帳號相關資訊
-
個人資料
-
公司內部內容
-
還沒公開的想法或討論
畢竟語音是要上傳到第三方伺服器。
你很難百分之百確定,資料最後會被怎麼處理。
所以我後來的心態就變成:
有些內容可以用,有些內容我會刻意避開。
第四個問題:快捷鍵偶爾會衝突,用到一半會卡住
還有一個比較少人提,但我自己實際遇過好幾次的問題:
快捷鍵衝突。
在某些情況下,只要我開著 Wispr Flow,
瀏覽器裡常用的 Ctrl + F(搜尋),
或是系統層級的 Ctrl + V(貼上),
會突然失效。
不是每一次都發生,
但一旦發生,就會讓人很困擾。
因為你會一開始以為是:
-
瀏覽器壞了
-
系統卡住
-
鍵盤怪怪的
結果最後發現,是 Wispr Flow 跟系統快捷鍵之間,
可能有設定或攔截上的衝突。
而且這種情況下,
通常不是「等一下就好」,
而是你必須:
-
把 Wispr Flow 關掉
-
再重新開啟
-
快捷鍵才會恢復正常
在需要快速查資料、快速貼內容的工作情境裡,
這種「突然卡住一下」的體驗,
其實會打斷節奏。
這也是我後來在評估工具時,
會額外納入考量的一個小但真實的使用成本。
▋所以我最近改用 Handy,頗為驚艷
也正因為上面這些原因,
我開始想找一個替代方案。
條件其實很簡單:
-
可以即時語音輸入
-
不用每次都擔心網路
-
最好能離線跑,不要上傳任何東西
然後我就遇到了 Handy。
Handy 是一款免費、開源、而且完全離線運作的即時語音轉文字工具。
重點只有一句話:
不用上傳,就能直接把你講的話轉成文字。
第一次打開來用的時候,我其實有點意外。
因為它的整個操作邏輯、快捷鍵概念,
跟 Wispr Flow 非常像。
如果你已經用過 Wispr Flow,
幾乎是不用學習成本,直接就能上手。
但最大的差別在於:
你講的每一句話,
都只在你的電腦裡跑。
沒有上傳,沒有下載,沒有等網路。
那種「講完就出字」的感覺,老實說,很爽。
也是從那次之後,我開始認真把 Handy 放進我的日常工作流程裡。
▋Handy 最值得講的 5 個賣點(為什麼我會留下來)
如果只看介紹,其實 Handy 很容易被你一句話帶過。
免費、開源、離線。
聽起來不錯,但好像也就這樣。
但實際用過一段時間之後,你才會發現它真正厲害的地方,不是某一個功能,而是「整體體驗」。
我直接用最白話的方式,講我自己最有感的五個賣點。
第一個賣點:完全離線,網路爛也能用
這一點,我放在第一個講。
因為對我來說,這就是 Handy 跟大多數即時語音輸入工具最大的差別。
Handy 是在你電腦本機跑模型。
不管你是在飛機上、高鐵上、在訊號不穩的會議室(當然前提是不要吵到其他人),
甚至是臨時沒網路,它都照樣可以用。
你不用擔心講到一半突然卡住,
也不用擔心講完才發現剛剛那段沒有傳上去。
那種「我講了,它一定會出字」的確定感,
用過之後真的會回不去。
第二個賣點:隱私更安心,所有資料都在本機
所有錄音、所有轉出來的文字,
全部都只存在你的電腦裡。
沒有上傳第三方伺服器,
也沒有雲端帳號要登入。
這件事情在平常可能沒什麼感覺,
但只要你有講過比較敏感的內容,
你就會懂「不用上傳」這件事有多輕鬆。
你不用在講之前多想一秒:
這段話適不適合上雲?
在 Handy 裡,這個問題根本不存在。
第三個賣點:速度真的飛快,不用等上傳下載
我原本以為,本機跑模型一定會比較慢。
實際用起來,剛好相反。
因為沒有上傳、沒有下載,
你講完之後,幾乎就是立刻看到文字出來。
以我自己的電腦來說,
我甚至覺得 Handy 的體感速度,比我之前用 Wispr Flow 還快。
當然,這多少會跟你的硬體有關。
但至少在我這台電腦上(記憶體:32 GB LPDDR5x RAM,顯示卡:NVIDIA® GeForce RTX™ 4050 GPU,6 GB GDDR6 vRAM),
「講完 → 出字」這件事,非常滑順。
第四個賣點:模型可選,從輕量到高準度自己決定
Handy 不是只給你一個固定模型。
你可以根據自己的電腦規格,
選擇不同大小、不同準度的模型。
-
硬體普通 → 用輕量模型,速度快
-
硬體好一點 → 上更大的模型,準度更高
-
想要兼顧速度與準度 → 可以選 Whisper Turbo
這種「我自己決定我要跑多重」的自由度,
在離線工具裡其實不多見。
而我自己一直以來最常用的,
就是 Whisper Turbo 這個選項。
第五個賣點:操作直覺,快捷鍵一按就講
最後一個賣點,也是我能長期用下去的關鍵。
Handy 的使用方式很直覺:
-
快捷鍵一按,開始講
-
講完再按一次,文字就直接出來
你不用切視窗,
不用點來點去,
它就像你的「第二副鍵盤」。
而且如果你之前就用過 Wispr Flow,
你幾乎不用重新適應。
那種感覺就像是:
換了一台引擎,但方向盤還在原本的位置。
總結一句話。
Handy 不是那種「看起來很炫」的工具。
但它是那種,你每天用、用久了會默默依賴它的工具。
▋下載與安裝:官網 vs GitHub Release,我怎麼選
Handy 的下載其實不複雜。
基本上你只要記得一件事:有兩個入口,看你想要多「新」。
兩個下載入口,差別在這裡
第一個:官網(適合大多數人)
你可以直接到官方網站下載對應的版本。
這個方式的好處是簡單、不用想太多,
對一般使用者來說最直覺。
官網提供的版本,通常是「相對穩定版」。
可能不是最新,但夠穩、也比較不容易踩雷。
第二個:GitHub Releases(給想要最新版的人)
如果你跟我一樣,
看到新功能、修正更新會有點手癢,
那你就可以直接去 GitHub 的 Releases 區下載。
這邊的版本通常會比官網新一點。
例如我實際下載的時候,GitHub 上已經到 v0.6.8,
但官網可能還停在稍早的版本。
那我自己怎麼選?
我的建議很簡單:
-
第一次用:官網下載就好
-
用得很順、想追新功能:再改用 GitHub Releases 或直接在軟體介面內手動更新
而且你不用太擔心「下錯版本」。
因為 Handy 本身就有檢查更新的功能。
就算你一開始從官網裝,
後面一樣可以在軟體裡面手動檢查、升級到最新版。
▋第一次打開必做:先選模型,不然你會覺得它「不能用」
這一段,我一定要特別拉出來講。
因為太多人第一次打開 Handy,會以為它壞掉了。
不是它不能用,是你還沒做一件事:選模型。
第一步:左下角,先去下載模型
Handy 安裝完之後,預設是「沒有模型」的狀態。
你會看到左下角顯示目前沒有可用模型,
這時候你就要先進去選、下載你要用的模型。
這一步沒做,
你按再多快捷鍵,它都不會轉字。
模型怎麼選?一句白話版本
模型這件事,其實不用想得太複雜。
你可以記住這個簡單公式:
模型越大 → 越準,但吃資源、速度可能慢一點
模型越小 → 越快,但準度相對沒那麼高
所以選模型,本質上是在三件事之間取平衡:
-
速度
-
準度
-
你的電腦硬體能不能負荷
常見的幾種選擇方向
如果你只是想「能用就好」,
官方提供的輕量模型,其實就很夠了。
-
檔案小
-
下載快
-
對硬體要求低
但如果你跟我一樣,
希望在準度跟速度之間找到一個甜蜜點,
那我會很直接推薦:Whisper Turbo。
我自己的硬體實測經驗(給你參考)
我用的是一台 Windows 筆電:
-
記憶體:32GB RAM
-
獨立顯卡:NVIDIA GeForce RTX 4050(6GB VRAM)
實際使用 Handy 的時候,我有特別觀察效能。
我發現一件滿有趣的事:
Handy 主要吃的是記憶體,而不是 GPU 或 CPU。
即使我有獨立顯卡,
在語音轉文字的過程中,GPU 的使用率其實不高。
反而是記憶體佔用比較明顯。
也因為這樣,只要你的 RAM 夠,
即使用比較大的模型,整體跑起來還是很順。
以我自己的體感來說,
用 Whisper Turbo 的情況下:
-
速度快
-
準度高
-
幾乎沒有卡頓感
所以我現在在電腦上,
幾乎都是用 Handy 直接取代原本的即時語音輸入工具。
▋實際操作:Ctrl + Space 這顆鍵,就是你的新鍵盤
Handy 真正讓我留下來的,不是設定多強,
而是用起來夠直覺。
你只要記住一個快捷鍵:
Ctrl + Space。
然後,你其實只有兩種用法可以選。
用法一:按住說話,放開就轉(適合短句)
如果你平常是這樣用語音輸入的:
-
回一句訊息
-
補一句說明
-
改一小段文字
那這個模式最順。
操作方式很簡單:
-
按住 Ctrl + Space
-
開始講話
-
放開按鍵
-
文字立刻出現在游標位置
整個節奏很像對講機。
講完就好,不用多想。
用法二:不按住,講一大段再結束(適合長段)
如果你想要一次講比較多,
例如:
-
一整段想法
-
一段草稿
-
一口氣把腦袋倒出來
那我會建議你把「按住說話」這個選項關掉。
這時候操作會變成:
-
按一次 Ctrl + Space → 開始錄
-
手可以放開,慢慢講
-
再按一次 Ctrl + Space → 結束錄音並轉文字
這個模式的好處是,
你不用一直按著鍵,講起來比較放鬆。
轉完的文字會跑去哪?
這個地方也很多人會問。
Handy 轉完之後,文字有兩種主要出現方式:
-
模擬輸入:
就像你自己在鍵盤上打字一樣,
文字會直接出現在目前游標的位置。 -
剪貼簿模式:
轉完先放在剪貼簿,
你再自己貼到想要的地方。
大多數情況下,我都是用預設值就好。
真的有特殊需求,再去調整就行。
▋介面設定拆解(第一次設定好,後面就很省事)
這一段比較偏教學。
但 Handy 的設定其實不複雜,
而且很多選項你只要看一次就懂。
我照實際使用順序,把重點拆給你。
【通用】日常最常碰到的設定
-
快捷鍵
預設是 Ctrl + Space。
如果跟你其他軟體衝突,可以自己改。 -
語言
預設是 Auto Detect。
如果你發現有時候會跑出簡體中文,
可以直接指定成 Traditional Chinese。實測下來,就算你選繁中,
中英文夾雜講晶晶體(外商最愛用),它一樣辨識得出來。
-
音效回饋
勾選後,開始與結束錄音都會有提示音。
不用一直盯著畫面看,有沒有在錄。 -
輸出裝置 / 音量
主要是提示音要從哪個喇叭出來。
一般用預設就好。
【高級】一次設定好,就很少再動
-
隱藏啟動 / 開機啟動
勾選後,開機就自動在背景跑。
不會跳視窗,很安靜。 -
懸浮窗位置
可以選要不要顯示懸浮窗,
以及在畫面上方或下方。 -
貼上方式 / 剪貼簿處理
決定轉完文字是直接打出來,
還是先放剪貼簿。不確定的話,用預設就好。
-
卸載模型
你可以選:-
永不卸載
-
幾分鐘後卸載
-
重啟後卸載
如果你常用 Handy,
我會建議可以照預設「永不卸載」,省得一直重新載入。 -
-
自定義詞彙
如果你常遇到某些詞被聽錯,
可以手動加進來,以後就會自動修正。
【歷史記錄】全部都在你電腦裡
只要你有錄過:
-
錄音檔
-
轉出來的文字
都會留在本機的歷史記錄裡。
要留、要刪,完全你自己決定。
沒有雲端同步,也沒有外流風險。
【關於】這裡通常只會看一次
在這裡你可以看到:
-
目前版本
-
程式安裝位置
-
資料存放資料夾
-
介面語言切換
如果你哪天想找檔案或確認版本,
記得來這裡就好。
▋「翻譯為英文」功能:哪些模型支援?怎麼開?
在 Handy 的設定裡,你可能會看到一個選項:「翻譯為英文(Translate to English)」。
這個功能乍看之下很吸引人,但實際上,不是每個模型都支援。
這邊我直接幫你把重點整理好,避免你自己踩雷。
哪些情況下,「翻譯為英文」才會真的生效?
根據官方 GitHub 說明,加上我自己的實際測試,可以用一句白話來記:
不是所有模型都能翻譯,尤其是偏即時、高速的模型。
以大家最常用、也最熱門的 Whisper Turbo 來說,
它的定位就是「快、即時、低延遲」,
本身並不支援翻譯功能。
也就是說:
-
你勾了「翻譯為英文」
-
但如果你用的是 Whisper Turbo
👉 它只會幫你轉文字,不會幫你翻成英文
這不是設定錯誤,是模型本身的限制。
那哪些模型有機會支援?
一般來說,標準 Whisper 系列模型(例如非 Turbo 的版本),
比較有機會支援「Translate to English」這種功能。
但相對的,你也要有心理準備:
-
模型比較大
-
吃資源比較多
-
延遲會比即時輸入稍高
所以這是一個很典型的取捨問題。
什麼情境真的用得到翻譯功能?
我會很老實說。
大多數即時語音輸入的場景,其實用不到翻譯。
但如果你是這種需求,就可以考慮:
-
你用中文講
-
希望輸出直接是英文草稿
-
例如回英文 mail、寫英文段落、做簡單口譯輔助
那你就可以:
-
換成支援翻譯的模型
-
勾選「翻譯為英文」
-
接受速度稍慢一點
而如果你跟我一樣,
主要追求的是「快、順、即時輸入」,
那老實說,用 Whisper Turbo、不開翻譯功能,反而是最實際的選擇。
▋我覺得 Handy 唯一的小缺點:標點真的比較吃「停頓」
講完優點,還是要講實話。
Handy 到目前為止,
我自己用下來覺得唯一比較需要適應的地方,
就是標點符號。
白話版說法就是這樣
如果你講話一路連著講、幾乎不停,
它有時候不太會幫你補出完整的標點。
結果就會變成:
-
文字是對的
-
但一整段看起來有點長、有點黏
這在你一次講很長一段時,會特別明顯。
解法其實也不複雜
我自己後來是這樣調整:
-
句子中間刻意停一下
不用很久,大概半秒就好 -
長段拆小段
一段講完就收一次,再繼續下一段
這樣轉出來的文字,
標點會自然很多,後面也比較好整理。
這算不算缺點?
老實說,我不會把它當成硬傷。
因為 Handy 主打的是:
離線、即時、穩定輸入。
而標點這件事,本來就跟模型、版本更新很有關係。
隨著後續版本調整,這個地方其實很有機會再變好。
所以我現在的心態是:
知道它的個性,配合它用,就好。
▋我現在的分工建議:Handy × Wispr Flow × NotebookLM × Faster Whisper 怎麼搭
小朋友才做選擇,工具不用選邊站。
選對情境,用對工具,才是真的省力。
我現在自己的實際工作流,其實很簡單,
你可以把它想成一張「選擇題」。
情境一:要跨裝置同步,手機、電腦都要用
👉 Wispr Flow
-
手機也能講
-
電腦也能接著語庫用
-
雲端同步設定很方便
如果你常常在外面,用手機講一句、回到電腦也想寫,
那 Wispr Flow 依然是很好的選擇。
情境二:電腦離線、重視隱私、一次講一大段
👉 Handy
-
不用網路
-
不用上傳
-
講完就出字
寫草稿、整理想法、處理內部內容,
或是你單純不想被網路品質綁架的時候,
Handy 就是我現在的主力。
情境三:錄音檔、研討會、長時間會議逐字稿
👉 NotebookLM
-
音檔丟進去
-
很快抓重點
-
適合「事後整理」
情境四:錄音時間很長、檔案很大,或完全不想碰雲端
👉 Faster-Whisper(本地批次轉錄)
還有一種情境,其實跟前面三個都不太一樣。
例如:
-
錄音時間 超過一個半小時以上
-
單一音檔 大於 200MB
-
內容偏向內部資料、研究討論,不希望上傳任何雲端服務,且超過 NotebookLM 處理上限
這種時候,我就不會用即時語音輸入工具了。
因為它們本來就不是為「超長音檔、一次性大量轉錄」設計的。
這時我會改用 Faster-Whisper,直接在本機跑。
它的定位很清楚:
-
不求即時
-
專心把「又長又大的音檔」穩定轉完
-
全程本地處理,完全不碰雲端
對我來說,Faster-Whisper 比較像是一台「重型機具」。
你不會每天開它,但只要遇到大檔案、長時間錄音,
它就是最安全、也最不容易出問題的選擇。
我會把 Handy 跟 Wispr Flow 當成「即時輸入工具」,
NotebookLM 跟 Faster-Whisper 則是「事後整理工具」。
角色不同,完全不衝突。
如果你問我:
要不要全部只選一套?
我的答案很直接:
不用。
現在的工具,搭配用,反而更順。
▋結語:別再硬敲鍵盤了,讓嘴巴替你打字
如果你看到這裡,其實已經很清楚了。
在 AI 的時代,
慢慢敲鍵盤,不是勤奮,
很多時候只是沒換工具。
我的建議只有兩步:
-
先把 Handy 裝起來,選好一個適合你電腦的模型
-
明天開始,用它寫第一段訊息、第一封 email、或第一段筆記
不用一次改變全部習慣。
你只要先讓「嘴巴幫你打一小段字」,
就會知道這件事有多省力。
最後,用一句我很喜歡、也很適合這篇文章的話作結:
「不是你不夠努力,而是你用錯了方法。」
鍵盤不會消失。
但從今天開始,
你可以讓它少忙一點。
📌 您可能也會有興趣的其他文章:
- 免主持權限!用 ViiTor Translate 打造線上會議免費即時轉錄與雙語翻譯系統
不是主持人也能做筆記!Otter.ai、Notta.ai 線上會議即時轉錄逐字稿完整教學 - 快速又免費的語音轉文字神器『Faster Whisper』,一鍵解決影音內容爆量時代的痛點!
- Notebook LM 語音轉文字完整教學:免費、快速又省力的最佳解法
- 打字太慢?試試 Wispr Flow:神速 AI 即時語音輸入讓你效率翻 4 倍
留言
張貼留言