Codex 全域語音輸入實測:把 Voice Dictation 變成電腦上的聽寫工具

過去我在部落格裡面,其實已經分享過不少語音即時輸入工具。

例如我之前寫過 Wispr FlowTypelessHandy,後來也補充過像是 Vibing 這類工具。這些語音即時輸入工具,都是我覺得很實用的工具,讓我們能達到光出一張嘴就能輕鬆打字的效果。因為現在很多人每天都要跟 AI 對話、寫筆記、回訊息、整理資料,如果每一段文字都靠鍵盤慢慢打,其實很容易卡住節奏。

語音輸入的好處就是:想到什麼,就直接講出來,講完就打完了。

當然,這類工具通常也會遇到幾個現實問題。有些工具可以用 BYOK,也就是 Bring Your Own Key,自己串 API Key,成本比較可控。需要免費 API 的讀者,可以參考我之前這篇文章【 9 個免費與高 CP 值雲端 API 來源一次整理】,語音即時輸入所串接的免費語音模型其 token 用量一般都多到用不完,可以放寬心使用;而有些專業的商用軟體則是提供免費額度,超過之後就要付費訂閱。

這些方案都可以用,但如果你本來就已經有 ChatGPT 或 OpenAI 的訂閱,那自然會想問一個問題:

既然網頁版的 ChatGPT 和桌面版的 Codex 都有語音聽寫的功能。有沒有可能不用再多付一套錢,就可以利用原生 OpenAI 的語音輸入功能來打字輸出呢?

最近我在使用 Codex 桌面版的時候,就發現它的設定裡面開始出現比較完整的聽寫功能,而且不只是 Codex 對話框內可以用,還可以設定成電腦全域環境下的語音輸入。這點就讓我覺得很值得拿出來介紹一下。

雲端 AI 平台都有麥克風,但通常被限制在對話框裡

現在很多 AI 平台,其實都已經有語音輸入或語音對談功能。

像是 ChatGPT、Gemini、Perplexity、Grok、Felo 等等,很多服務的輸入框旁邊都可以看到麥克風按鈕。使用者可以直接用講的,把想問的內容轉成文字,或是進入語音對談模式。

這當然很方便。

但問題是,它通常只方便在那個平台裡面。

如果你今天是在 ChatGPT 裡面輸入,那沒有問題。但如果你想把語音轉文字用在別的地方,例如:

  • 筆記軟體
  • 瀏覽器表單
  • Word 或 Markdown 編輯器
  • 即時通訊軟體
  • 後台系統輸入欄位

那就會多一個步驟。你可能要先在 AI 平台裡面講完,等它轉成文字,再複製貼上到真正要使用的地方。

這樣當然不是不能用,只是流程就沒有那麼順。

所以我覺得語音輸入工具真正好用的地方,不只是「能不能聽懂我說話」,而是它能不能出現在我真正需要打字的地方。

這也是這次 Codex 全域聽寫讓我感興趣的原因。





語音對談和語音聽寫不太一樣

這裡我想先講一個我自己的使用偏好。

語音對談語音聽寫,其實是兩件不太一樣的事情。

語音對談比較像是你直接跟 AI 講話,講完之後,AI 就接著理解你的意思並回應。像 Google Antigravity 對話框裡的語音輸入模式,就比較接近這種感覺。它的優點是很即時,互動感很強。

但缺點是,你不一定會先看到完整文字。

如果只是閒聊、問一個簡單問題,這樣沒什麼關係。但如果你要輸入的是比較正式、比較長、或是需要精準確認的內容,我個人就比較不喜歡完全交給語音對談直接送出。

因為語音辨識一定有機會出錯。

同音字、專有名詞、人名、產品名稱、諧音梗,連人跟人對話都可能聽錯,更不用說 AI 語音辨識。有時候差一兩個字,意思就不太一樣。

所以我比較偏好「語音聽寫」這種模式。

也就是我先用講的,把內容轉成文字。轉出來之後,我可以看一下,有錯就修,沒問題再送出或拿去使用。

這樣比較安心,也比較適合拿來寫文章草稿、回覆重要訊息,或整理比較長的想法。



Codex 的 Voice Dictation,這次真正讓我注意到的是全域聽寫

Codex 支援語音聽寫這件事,其實不是完全沒有官方資料。

OpenAI Developers 的 Codex app features 頁面裡面,就有列出 Voice dictation。官方說明是,使用者可以用語音 prompt Codex,語音會被轉錄成文字,送出前也可以編輯。

另外在 Codex app commands 的快捷鍵頁面裡,也可以看到 Dictation 被列在鍵盤快捷鍵中。OpenAI 的 Codex changelog 也曾把 Voice dictation 列為功能更新之一。

不過這裡要特別說明一下。

官方文件目前寫到的快捷鍵,和我自己在 Windows 桌面版實際看到的快捷鍵不完全一樣。官方文件裡看到的是 Ctrl + M,但我目前在自己的使用環境裡,不管是線上版 ChatGPT 還是桌面版 Codex 對話框,聽寫顯示的快捷鍵都是 Ctrl + Shift + D。

這個差異可能來自版本、平台、介面入口,或是官方文件還沒有同步更新。

最近 Codex 桌面版更新蠻頻繁。有時候我會順手進設定頁看一下,到底又多了什麼功能。前陣子大家比較常討論的,可能是瀏覽器代理、自動化、外掛串接這類功能。這些當然都很有意思。

但我這次比較意外看到的是, Codex 桌面版現在可以支援「全域聽寫」的功能了。

在設定頁的一般項目裡,往下可以找到 Dictation 或聽寫相關區塊。裡面不只是單純告訴你可以語音輸入,而是可以設定全域使用的聽寫快捷鍵。

也就是說,它不只是讓你在 Codex 對話框裡面用語音輸入,而是可以讓 Codex 在背景待命。當你在電腦任何地方想要輸入文字時,就用自己設定的快捷鍵啟動聽寫。講完之後,它就把語音轉成文字,輸入到你目前所在的位置。

白話講,就是有點像把 Codex 變成一個全域語音輸入工具。

如果你本來就在用 Codex,這個功能就很有吸引力。因為你不需要另外打開一個語音輸入服務,也不一定需要額外訂閱另一套工具。

如何開啟 Codex 全域聽寫設定

以我目前看到的 Windows 桌面版 Codex 來說,設定方向大概是:

Codex 設定頁 → 一般 → 往下找到聽寫 / Dictation 區塊。

在這個區塊裡面,主要會看到幾個設定。

第一個是「按住聽寫快捷鍵」。

這個模式比較像 push-to-talk。你設定好快捷鍵之後,按住不放就可以開始講話。講完放開,它就開始轉寫。

這種模式適合短句或比較快的輸入。例如你只是要回一段訊息、補一句備註,按住講完就放開,流程很直覺。

第二個是「切換聽寫快捷鍵」。

這個名稱如果直接看中文翻譯,可能會有一點不容易懂。它比較像 toggle 模式。也就是你按一下開始聽寫,手可以放開,接著講比較長的一段。講完之後,再按一下結束,它就開始轉成文字。

如果你要講比較長的段落,我覺得這個模式會比較方便。

第三個是「聽寫字典」。

這個功能我覺得也蠻實用。因為語音辨識最容易出錯的地方,常常不是一般生活用語,而是專有名詞。

例如:

  • 自己的中英文名字
  • 公司名稱
  • 產品名稱
  • 常用軟體名稱
  • 專案名稱
  • 中英文混合的品牌或工具名稱

如果這些字詞常常被聽錯,就可以試著加入聽寫字典。它不一定保證每次都完美,但至少可以增加辨識正確的機會。

另外設定頁裡也可以看到最近聽寫內容。這個設計的好處是,如果你剛剛講了一段內容,後來還想再複製出來,也可以從這裡找。


全域聽寫快捷鍵需要自己設定

這裡有一點我覺得一定要特別提醒。

全域聽寫設定,和 Codex 或 ChatGPT 對話框裡面的聽寫快捷鍵,不是同一件事。

在我的實測環境裡,對話框內的聽寫快捷鍵顯示為 Ctrl + Shift + D。但全域聽寫的部分,預設並沒有快捷鍵,需要使用者自己設定。

所以如果你打開 Codex 設定頁,看到全域聽寫還沒有反應,不一定是功能不能用,而是你可能還沒有幫它設定快捷鍵。

設定快捷鍵時,也不是隨便按一個鍵就可以。

我測試時,如果設定不符合規則,畫面會跳出類似「Shortcut must include Cmd/Ctrl or Alt」的提醒。以 Windows 來說,大概就是快捷鍵裡要包含 Ctrl 或 Alt 這類修飾鍵,而且不能只按單一 Ctrl 或單一 Alt。通常要是 Ctrl 搭配另一個按鍵,或 Alt 搭配另一個按鍵。

我的建議是,選一組自己不容易誤觸,也不會跟常用軟體衝突的快捷鍵。

例如你平常已經常用某些截圖、剪貼簿、輸入法或筆記軟體快捷鍵,就不要再跟它們撞在一起。不然語音輸入還沒開始,先把自己常用的工作流程搞亂,就有點本末倒置了。



實際使用感受:速度快,品質也不差

我自己實測下來,Codex 這個全域聽寫的速度算快。

講完之後,大概 2 到 3 秒左右,就可以看到文字出現。當然實際速度還是會跟網路、電腦狀態、講話長度有關,但整體感覺不會慢到讓人失去耐心。

轉寫品質也比我原本想像中好。

它會自動加上標點符號,也會幫忙去掉一些語助詞或贅字。對日常輸入來說,已經算是可用程度蠻高。

使用時,畫面下方也會出現一個小型的狀態提示。你可以知道它現在是在聆聽,還是在轉寫。這點我覺得很重要,因為全域工具如果沒有狀態提示,使用者會很容易不知道現在到底有沒有啟動成功。

以我的使用情境來說,它很適合拿來做幾件事:

  • 快速把腦中的想法先講出來
  • 回覆比較長的訊息
  • 草擬文章段落
  • 在不同軟體裡輸入文字
  • 先用語音打底,再回頭修文字

這些場景不一定需要完美,但需要夠快、夠順、不要打斷思路。以這個標準來看,我覺得 Codex 全域聽寫是有達到的。


目前還不是專業級語音輸入工具

不過我也不會說它已經可以取代所有專業語音輸入工具。

目前我遇到比較明顯的限制,是偶爾會出現簡體中文。它現在看起來沒有一個很明確的設定,可以強制指定一定要輸出繁體中文。

對台灣使用者來說,這點就會有一點小困擾。

如果只是日常輸入,出現一兩個簡體字,回頭改一下就好。但如果你是要大量產出正式文章,或是很在意格式一致性,那還是要自己檢查。

另外,它也不像某些專門的語音輸入工具,有非常進階的語音指令功能。

例如:

  • 用語音控制分段排版
  • 直接下指令修改前一句
  • 中文口述後自動翻成英文
  • 全選一段文字後用語音改寫
  • 更細緻的自訂詞庫與輸出規則

這些比較進階的功能,目前我不會期待 Codex 全域聽寫都能做到。

所以它比較適合被定位成「快速語音轉文字工具」,而不是完整的語音寫作工作站。

如果你需要的是高強度逐字稿、嚴格格式控制、專業口述排版,那還是要另外找更專門的工具。

適合誰使用?

我覺得 Codex 全域聽寫比較適合幾種人。

第一種,是本來就有在用 Codex 桌面版的人。

這種人最適合先打開試試看。因為工具已經在電腦裡,不用多裝太多東西,也不用重新適應一套完全不同的服務。

第二種,是已經有 ChatGPT 或 OpenAI 訂閱的人。

如果你本來就有訂閱,那這個功能等於是多一個可以利用的附加價值。你不一定要馬上取消其他語音輸入工具,但至少可以多一個備用方案。

第三種,是常常需要在不同軟體之間輸入文字的人。

如果你每天都在瀏覽器、筆記軟體、文件編輯器、聊天工具之間切換,那全域語音輸入的價值會比單一網站內的麥克風大很多。

第四種,是想要先用語音快速打草稿,再人工修一下的人。

這也是我自己最常用的方式。因為很多時候,寫作最卡的不是修文字,而是第一版想法出不來。用語音先講一輪,至少可以讓內容先落地。

但如果你需要非常精準的繁體中文控制、專業逐字稿,或是大量語音指令操作,那它目前可能還不是最適合的主力工具。

隱私與資料使用也要留意

語音聽寫還有一件事不能完全忽略,就是資料處理。

這類功能通常不是純本機離線運算。依照 OpenAI Help Center 針對 Voice Dictation 的說明,使用者按下麥克風後,音訊會送到模型進行轉錄,再回傳成文字。使用者可以在送出前編輯轉錄後的內容。

如果你很在意資料使用,也可以再去看 OpenAI 的 Voice Dictation FAQ,以及 ChatGPT / Codex 相關的資料控制設定。

我的習慣是,這類語音輸入工具可以拿來輸入一般文章草稿、日常筆記、公開可討論的內容。但如果是高度敏感資料,例如密碼、個資、公司機密、醫療細節,我就不會直接用語音輸入工具來處理。

這不是說它一定不安全,而是使用工具前,先知道資料大概會怎麼流動,會比較安心。

如果你本來就在用 Codex,這個功能很值得打開試試

整體來說,我覺得 Codex 全域聽寫是一個蠻實用的延伸功能。

它不一定會取代 Wispr FlowTypelessHandy 這類專門的語音輸入工具。畢竟專業工具還是有它們各自的優勢,像是更完整的工作流程、更細緻的語音控制,或是更針對語音輸入設計的介面。

但如果你本來就已經在用 Codex,尤其是已經有 OpenAI 或 ChatGPT 訂閱,那這個功能就很值得打開試試看。

你只要設定好快捷鍵,就可以在電腦不同地方用語音輸入文字。對每天大量打字、常常跟 AI 工具互動的人來說,這種小功能其實很容易默默改變工作習慣。

你可以先把全域聽寫快捷鍵設定好,拿來回幾則訊息、寫幾段筆記、草擬幾段文章。用幾天之後,你大概就會知道它適不適合自己的工作流程。

如果你跟我一樣,常常需要在不同工具之間輸入大量文字,那 Codex 這個全域聽寫功能,應該會是一個蠻值得保留在工具箱裡的選項或備案。


📌 您可能也會有興趣的其他文章:

留言

熱門文章

Gemini Voyager 教學:資料夾管理、引用回覆、去浮水印一次搞定

用AI一鍵生成簡報PPT投影片真的有那麼神?全網最詳細AI簡報工具彙整與實測心得

為什麼 Nystatin(制黴菌素)要「漱口或塗抹」,不是直接吞?完整解析與用法指南

快速又免費的語音轉文字神器『Faster Whisper』,一鍵解決影音內容爆量時代的痛點!

Google AI Pro 隱藏福利!每月 10 美元額度怎麼領?完整設定步驟 + 安全防護

Windows 桌面圖示每次重新開機或外接螢幕就跑位亂移?從設定排除到 DesktopOK 一鍵還原完整攻略

微軟 Copilot 全新語音功能重磅來襲!免費無限暢聊,直球對決 ChatGPT 進階語音模式!

AI 語音助理新革命:Copilot Vision 無限免費、視覺功能全開,完整評比 ChatGPT 進階模式

G6PD 缺乏者的抗生素選擇指南|社區診所常見處方與藥師建議一次搞懂

打字太慢?試試 Wispr Flow:神速 AI 即時語音輸入讓你效率翻 4 倍