Codex 全域語音輸入實測:把 Voice Dictation 變成電腦上的聽寫工具
過去我在部落格裡面,其實已經分享過不少語音即時輸入工具。
例如我之前寫過 Wispr Flow、Typeless、Handy,後來也補充過像是 Vibing 這類工具。這些語音即時輸入工具,都是我覺得很實用的工具,讓我們能達到光出一張嘴就能輕鬆打字的效果。因為現在很多人每天都要跟 AI 對話、寫筆記、回訊息、整理資料,如果每一段文字都靠鍵盤慢慢打,其實很容易卡住節奏。
語音輸入的好處就是:想到什麼,就直接講出來,講完就打完了。
當然,這類工具通常也會遇到幾個現實問題。有些工具可以用 BYOK,也就是 Bring Your Own Key,自己串 API Key,成本比較可控。需要免費 API 的讀者,可以參考我之前這篇文章【 9 個免費與高 CP 值雲端 API 來源一次整理】,語音即時輸入所串接的免費語音模型其 token 用量一般都多到用不完,可以放寬心使用;而有些專業的商用軟體則是提供免費額度,超過之後就要付費訂閱。
這些方案都可以用,但如果你本來就已經有 ChatGPT 或 OpenAI 的訂閱,那自然會想問一個問題:
既然網頁版的 ChatGPT 和桌面版的 Codex 都有語音聽寫的功能。有沒有可能不用再多付一套錢,就可以利用原生 OpenAI 的語音輸入功能來打字輸出呢?
最近我在使用 Codex 桌面版的時候,就發現它的設定裡面開始出現比較完整的聽寫功能,而且不只是 Codex 對話框內可以用,還可以設定成電腦全域環境下的語音輸入。這點就讓我覺得很值得拿出來介紹一下。
雲端 AI 平台都有麥克風,但通常被限制在對話框裡
現在很多 AI 平台,其實都已經有語音輸入或語音對談功能。
像是 ChatGPT、Gemini、Perplexity、Grok、Felo 等等,很多服務的輸入框旁邊都可以看到麥克風按鈕。使用者可以直接用講的,把想問的內容轉成文字,或是進入語音對談模式。
這當然很方便。
但問題是,它通常只方便在那個平台裡面。
如果你今天是在 ChatGPT 裡面輸入,那沒有問題。但如果你想把語音轉文字用在別的地方,例如:
- 筆記軟體
- 瀏覽器表單
- Word 或 Markdown 編輯器
- 即時通訊軟體
- 後台系統輸入欄位
那就會多一個步驟。你可能要先在 AI 平台裡面講完,等它轉成文字,再複製貼上到真正要使用的地方。
這樣當然不是不能用,只是流程就沒有那麼順。
所以我覺得語音輸入工具真正好用的地方,不只是「能不能聽懂我說話」,而是它能不能出現在我真正需要打字的地方。
這也是這次 Codex 全域聽寫讓我感興趣的原因。
語音對談和語音聽寫不太一樣
這裡我想先講一個我自己的使用偏好。
語音對談和語音聽寫,其實是兩件不太一樣的事情。
語音對談比較像是你直接跟 AI 講話,講完之後,AI 就接著理解你的意思並回應。像 Google Antigravity 對話框裡的語音輸入模式,就比較接近這種感覺。它的優點是很即時,互動感很強。
但缺點是,你不一定會先看到完整文字。
如果只是閒聊、問一個簡單問題,這樣沒什麼關係。但如果你要輸入的是比較正式、比較長、或是需要精準確認的內容,我個人就比較不喜歡完全交給語音對談直接送出。
因為語音辨識一定有機會出錯。
同音字、專有名詞、人名、產品名稱、諧音梗,連人跟人對話都可能聽錯,更不用說 AI 語音辨識。有時候差一兩個字,意思就不太一樣。
所以我比較偏好「語音聽寫」這種模式。
也就是我先用講的,把內容轉成文字。轉出來之後,我可以看一下,有錯就修,沒問題再送出或拿去使用。
這樣比較安心,也比較適合拿來寫文章草稿、回覆重要訊息,或整理比較長的想法。
Codex 的 Voice Dictation,這次真正讓我注意到的是全域聽寫
Codex 支援語音聽寫這件事,其實不是完全沒有官方資料。
OpenAI Developers 的 Codex app features 頁面裡面,就有列出 Voice dictation。官方說明是,使用者可以用語音 prompt Codex,語音會被轉錄成文字,送出前也可以編輯。
另外在 Codex app commands 的快捷鍵頁面裡,也可以看到 Dictation 被列在鍵盤快捷鍵中。OpenAI 的 Codex changelog 也曾把 Voice dictation 列為功能更新之一。
不過這裡要特別說明一下。
官方文件目前寫到的快捷鍵,和我自己在 Windows 桌面版實際看到的快捷鍵不完全一樣。官方文件裡看到的是 Ctrl + M,但我目前在自己的使用環境裡,不管是線上版 ChatGPT 還是桌面版 Codex 對話框,聽寫顯示的快捷鍵都是 Ctrl + Shift + D。
這個差異可能來自版本、平台、介面入口,或是官方文件還沒有同步更新。
最近 Codex 桌面版更新蠻頻繁。有時候我會順手進設定頁看一下,到底又多了什麼功能。前陣子大家比較常討論的,可能是瀏覽器代理、自動化、外掛串接這類功能。這些當然都很有意思。
但我這次比較意外看到的是, Codex 桌面版現在可以支援「全域聽寫」的功能了。
在設定頁的一般項目裡,往下可以找到 Dictation 或聽寫相關區塊。裡面不只是單純告訴你可以語音輸入,而是可以設定全域使用的聽寫快捷鍵。
也就是說,它不只是讓你在 Codex 對話框裡面用語音輸入,而是可以讓 Codex 在背景待命。當你在電腦任何地方想要輸入文字時,就用自己設定的快捷鍵啟動聽寫。講完之後,它就把語音轉成文字,輸入到你目前所在的位置。
白話講,就是有點像把 Codex 變成一個全域語音輸入工具。
如果你本來就在用 Codex,這個功能就很有吸引力。因為你不需要另外打開一個語音輸入服務,也不一定需要額外訂閱另一套工具。
如何開啟 Codex 全域聽寫設定
以我目前看到的 Windows 桌面版 Codex 來說,設定方向大概是:
Codex 設定頁 → 一般 → 往下找到聽寫 / Dictation 區塊。
在這個區塊裡面,主要會看到幾個設定。
第一個是「按住聽寫快捷鍵」。
這個模式比較像 push-to-talk。你設定好快捷鍵之後,按住不放就可以開始講話。講完放開,它就開始轉寫。
這種模式適合短句或比較快的輸入。例如你只是要回一段訊息、補一句備註,按住講完就放開,流程很直覺。
第二個是「切換聽寫快捷鍵」。
這個名稱如果直接看中文翻譯,可能會有一點不容易懂。它比較像 toggle 模式。也就是你按一下開始聽寫,手可以放開,接著講比較長的一段。講完之後,再按一下結束,它就開始轉成文字。
如果你要講比較長的段落,我覺得這個模式會比較方便。
第三個是「聽寫字典」。
這個功能我覺得也蠻實用。因為語音辨識最容易出錯的地方,常常不是一般生活用語,而是專有名詞。
例如:
- 自己的中英文名字
- 公司名稱
- 產品名稱
- 常用軟體名稱
- 專案名稱
- 中英文混合的品牌或工具名稱
如果這些字詞常常被聽錯,就可以試著加入聽寫字典。它不一定保證每次都完美,但至少可以增加辨識正確的機會。
另外設定頁裡也可以看到最近聽寫內容。這個設計的好處是,如果你剛剛講了一段內容,後來還想再複製出來,也可以從這裡找。
全域聽寫快捷鍵需要自己設定
這裡有一點我覺得一定要特別提醒。
全域聽寫設定,和 Codex 或 ChatGPT 對話框裡面的聽寫快捷鍵,不是同一件事。
在我的實測環境裡,對話框內的聽寫快捷鍵顯示為 Ctrl + Shift + D。但全域聽寫的部分,預設並沒有快捷鍵,需要使用者自己設定。
所以如果你打開 Codex 設定頁,看到全域聽寫還沒有反應,不一定是功能不能用,而是你可能還沒有幫它設定快捷鍵。
設定快捷鍵時,也不是隨便按一個鍵就可以。
我測試時,如果設定不符合規則,畫面會跳出類似「Shortcut must include Cmd/Ctrl or Alt」的提醒。以 Windows 來說,大概就是快捷鍵裡要包含 Ctrl 或 Alt 這類修飾鍵,而且不能只按單一 Ctrl 或單一 Alt。通常要是 Ctrl 搭配另一個按鍵,或 Alt 搭配另一個按鍵。
我的建議是,選一組自己不容易誤觸,也不會跟常用軟體衝突的快捷鍵。
例如你平常已經常用某些截圖、剪貼簿、輸入法或筆記軟體快捷鍵,就不要再跟它們撞在一起。不然語音輸入還沒開始,先把自己常用的工作流程搞亂,就有點本末倒置了。
實際使用感受:速度快,品質也不差
我自己實測下來,Codex 這個全域聽寫的速度算快。
講完之後,大概 2 到 3 秒左右,就可以看到文字出現。當然實際速度還是會跟網路、電腦狀態、講話長度有關,但整體感覺不會慢到讓人失去耐心。
轉寫品質也比我原本想像中好。
它會自動加上標點符號,也會幫忙去掉一些語助詞或贅字。對日常輸入來說,已經算是可用程度蠻高。
使用時,畫面下方也會出現一個小型的狀態提示。你可以知道它現在是在聆聽,還是在轉寫。這點我覺得很重要,因為全域工具如果沒有狀態提示,使用者會很容易不知道現在到底有沒有啟動成功。
以我的使用情境來說,它很適合拿來做幾件事:
- 快速把腦中的想法先講出來
- 回覆比較長的訊息
- 草擬文章段落
- 在不同軟體裡輸入文字
- 先用語音打底,再回頭修文字
這些場景不一定需要完美,但需要夠快、夠順、不要打斷思路。以這個標準來看,我覺得 Codex 全域聽寫是有達到的。
目前還不是專業級語音輸入工具
不過我也不會說它已經可以取代所有專業語音輸入工具。
目前我遇到比較明顯的限制,是偶爾會出現簡體中文。它現在看起來沒有一個很明確的設定,可以強制指定一定要輸出繁體中文。
對台灣使用者來說,這點就會有一點小困擾。
如果只是日常輸入,出現一兩個簡體字,回頭改一下就好。但如果你是要大量產出正式文章,或是很在意格式一致性,那還是要自己檢查。
另外,它也不像某些專門的語音輸入工具,有非常進階的語音指令功能。
例如:
- 用語音控制分段排版
- 直接下指令修改前一句
- 中文口述後自動翻成英文
- 全選一段文字後用語音改寫
- 更細緻的自訂詞庫與輸出規則
這些比較進階的功能,目前我不會期待 Codex 全域聽寫都能做到。
所以它比較適合被定位成「快速語音轉文字工具」,而不是完整的語音寫作工作站。
如果你需要的是高強度逐字稿、嚴格格式控制、專業口述排版,那還是要另外找更專門的工具。
適合誰使用?
我覺得 Codex 全域聽寫比較適合幾種人。
第一種,是本來就有在用 Codex 桌面版的人。
這種人最適合先打開試試看。因為工具已經在電腦裡,不用多裝太多東西,也不用重新適應一套完全不同的服務。
第二種,是已經有 ChatGPT 或 OpenAI 訂閱的人。
如果你本來就有訂閱,那這個功能等於是多一個可以利用的附加價值。你不一定要馬上取消其他語音輸入工具,但至少可以多一個備用方案。
第三種,是常常需要在不同軟體之間輸入文字的人。
如果你每天都在瀏覽器、筆記軟體、文件編輯器、聊天工具之間切換,那全域語音輸入的價值會比單一網站內的麥克風大很多。
第四種,是想要先用語音快速打草稿,再人工修一下的人。
這也是我自己最常用的方式。因為很多時候,寫作最卡的不是修文字,而是第一版想法出不來。用語音先講一輪,至少可以讓內容先落地。
但如果你需要非常精準的繁體中文控制、專業逐字稿,或是大量語音指令操作,那它目前可能還不是最適合的主力工具。
隱私與資料使用也要留意
語音聽寫還有一件事不能完全忽略,就是資料處理。
這類功能通常不是純本機離線運算。依照 OpenAI Help Center 針對 Voice Dictation 的說明,使用者按下麥克風後,音訊會送到模型進行轉錄,再回傳成文字。使用者可以在送出前編輯轉錄後的內容。
如果你很在意資料使用,也可以再去看 OpenAI 的 Voice Dictation FAQ,以及 ChatGPT / Codex 相關的資料控制設定。
我的習慣是,這類語音輸入工具可以拿來輸入一般文章草稿、日常筆記、公開可討論的內容。但如果是高度敏感資料,例如密碼、個資、公司機密、醫療細節,我就不會直接用語音輸入工具來處理。
這不是說它一定不安全,而是使用工具前,先知道資料大概會怎麼流動,會比較安心。
如果你本來就在用 Codex,這個功能很值得打開試試
整體來說,我覺得 Codex 全域聽寫是一個蠻實用的延伸功能。
它不一定會取代 Wispr Flow、Typeless、Handy 這類專門的語音輸入工具。畢竟專業工具還是有它們各自的優勢,像是更完整的工作流程、更細緻的語音控制,或是更針對語音輸入設計的介面。
但如果你本來就已經在用 Codex,尤其是已經有 OpenAI 或 ChatGPT 訂閱,那這個功能就很值得打開試試看。
你只要設定好快捷鍵,就可以在電腦不同地方用語音輸入文字。對每天大量打字、常常跟 AI 工具互動的人來說,這種小功能其實很容易默默改變工作習慣。
你可以先把全域聽寫快捷鍵設定好,拿來回幾則訊息、寫幾段筆記、草擬幾段文章。用幾天之後,你大概就會知道它適不適合自己的工作流程。
如果你跟我一樣,常常需要在不同工具之間輸入大量文字,那 Codex 這個全域聽寫功能,應該會是一個蠻值得保留在工具箱裡的選項或備案。
留言
張貼留言