Codex 全域語音輸入實測：把 Voice Dictation 變成電腦上的聽寫工具

作者：亞瑟 5月 13, 2026

過去我在部落格裡面，其實已經分享過不少語音即時輸入工具。

例如我之前寫過 Wispr Flow、Typeless、Handy，後來也補充過像是 Vibing 這類工具。這些語音即時輸入工具，都是我覺得很實用的工具，讓我們能達到光出一張嘴就能輕鬆打字的效果。因為現在很多人每天都要跟 AI 對話、寫筆記、回訊息、整理資料，如果每一段文字都靠鍵盤慢慢打，其實很容易卡住節奏。

語音輸入的好處就是：想到什麼，就直接講出來，講完就打完了。

當然，這類工具通常也會遇到幾個現實問題。有些工具可以用 BYOK，也就是 Bring Your Own Key，自己串 API Key，成本比較可控。需要免費 API 的讀者，可以參考我之前這篇文章【 9 個免費與高 CP 值雲端 API 來源一次整理】，語音即時輸入所串接的免費語音模型其 token 用量一般都多到用不完，可以放寬心使用；而有些專業的商用軟體則是提供免費額度，超過之後就要付費訂閱。

這些方案都可以用，但如果你本來就已經有 ChatGPT 或 OpenAI 的訂閱，那自然會想問一個問題：

既然網頁版的 ChatGPT 和桌面版的 Codex 都有語音聽寫的功能。有沒有可能不用再多付一套錢，就可以利用原生 OpenAI 的語音輸入功能來打字輸出呢？

最近我在使用 Codex 桌面版的時候，就發現它的設定裡面開始出現比較完整的聽寫功能，而且不只是 Codex 對話框內可以用，還可以設定成電腦全域環境下的語音輸入。這點就讓我覺得很值得拿出來介紹一下。

雲端 AI 平台都有麥克風，但通常被限制在對話框裡

現在很多 AI 平台，其實都已經有語音輸入或語音對談功能。

像是 ChatGPT、Gemini、Perplexity、Grok、Felo 等等，很多服務的輸入框旁邊都可以看到麥克風按鈕。使用者可以直接用講的，把想問的內容轉成文字，或是進入語音對談模式。

這當然很方便。

但問題是，它通常只方便在那個平台裡面。

如果你今天是在 ChatGPT 裡面輸入，那沒有問題。但如果你想把語音轉文字用在別的地方，例如：

筆記軟體
瀏覽器表單
Word 或 Markdown 編輯器
即時通訊軟體
後台系統輸入欄位

那就會多一個步驟。你可能要先在 AI 平台裡面講完，等它轉成文字，再複製貼上到真正要使用的地方。

這樣當然不是不能用，只是流程就沒有那麼順。

所以我覺得語音輸入工具真正好用的地方，不只是「能不能聽懂我說話」，而是它能不能出現在我真正需要打字的地方。

這也是這次 Codex 全域聽寫讓我感興趣的原因。

語音對談和語音聽寫不太一樣

這裡我想先講一個我自己的使用偏好。

語音對談和語音聽寫，其實是兩件不太一樣的事情。

語音對談比較像是你直接跟 AI 講話，講完之後，AI 就接著理解你的意思並回應。像 Google Antigravity 對話框裡的語音輸入模式，就比較接近這種感覺。它的優點是很即時，互動感很強。

但缺點是，你不一定會先看到完整文字。

如果只是閒聊、問一個簡單問題，這樣沒什麼關係。但如果你要輸入的是比較正式、比較長、或是需要精準確認的內容，我個人就比較不喜歡完全交給語音對談直接送出。

因為語音辨識一定有機會出錯。

同音字、專有名詞、人名、產品名稱、諧音梗，連人跟人對話都可能聽錯，更不用說 AI 語音辨識。有時候差一兩個字，意思就不太一樣。

所以我比較偏好「語音聽寫」這種模式。

也就是我先用講的，把內容轉成文字。轉出來之後，我可以看一下，有錯就修，沒問題再送出或拿去使用。

這樣比較安心，也比較適合拿來寫文章草稿、回覆重要訊息，或整理比較長的想法。

Codex 的 Voice Dictation，這次真正讓我注意到的是全域聽寫

Codex 支援語音聽寫這件事，其實不是完全沒有官方資料。

OpenAI Developers 的 Codex app features 頁面裡面，就有列出 Voice dictation。官方說明是，使用者可以用語音 prompt Codex，語音會被轉錄成文字，送出前也可以編輯。

另外在 Codex app commands 的快捷鍵頁面裡，也可以看到 Dictation 被列在鍵盤快捷鍵中。OpenAI 的 Codex changelog 也曾把 Voice dictation 列為功能更新之一。

不過這裡要特別說明一下。

官方文件目前寫到的快捷鍵，和我自己在 Windows 桌面版實際看到的快捷鍵不完全一樣。官方文件裡看到的是 Ctrl + M，但我目前在自己的使用環境裡，不管是線上版 ChatGPT 還是桌面版 Codex 對話框，聽寫顯示的快捷鍵都是 Ctrl + Shift + D。

這個差異可能來自版本、平台、介面入口，或是官方文件還沒有同步更新。

最近 Codex 桌面版更新蠻頻繁。有時候我會順手進設定頁看一下，到底又多了什麼功能。前陣子大家比較常討論的，可能是瀏覽器代理、自動化、外掛串接這類功能。這些當然都很有意思。

但我這次比較意外看到的是， Codex 桌面版現在可以支援「全域聽寫」的功能了。

在設定頁的一般項目裡，往下可以找到 Dictation 或聽寫相關區塊。裡面不只是單純告訴你可以語音輸入，而是可以設定全域使用的聽寫快捷鍵。

也就是說，它不只是讓你在 Codex 對話框裡面用語音輸入，而是可以讓 Codex 在背景待命。當你在電腦任何地方想要輸入文字時，就用自己設定的快捷鍵啟動聽寫。講完之後，它就把語音轉成文字，輸入到你目前所在的位置。

白話講，就是有點像把 Codex 變成一個全域語音輸入工具。

如果你本來就在用 Codex，這個功能就很有吸引力。因為你不需要另外打開一個語音輸入服務，也不一定需要額外訂閱另一套工具。

如何開啟 Codex 全域聽寫設定

以我目前看到的 Windows 桌面版 Codex 來說，設定方向大概是：

Codex 設定頁 → 一般 → 往下找到聽寫 / Dictation 區塊。

在這個區塊裡面，主要會看到幾個設定。

第一個是「按住聽寫快捷鍵」。

這個模式比較像 push-to-talk。你設定好快捷鍵之後，按住不放就可以開始講話。講完放開，它就開始轉寫。

這種模式適合短句或比較快的輸入。例如你只是要回一段訊息、補一句備註，按住講完就放開，流程很直覺。

第二個是「切換聽寫快捷鍵」。

這個名稱如果直接看中文翻譯，可能會有一點不容易懂。它比較像 toggle 模式。也就是你按一下開始聽寫，手可以放開，接著講比較長的一段。講完之後，再按一下結束，它就開始轉成文字。

如果你要講比較長的段落，我覺得這個模式會比較方便。

第三個是「聽寫字典」。

這個功能我覺得也蠻實用。因為語音辨識最容易出錯的地方，常常不是一般生活用語，而是專有名詞。

例如：

自己的中英文名字
公司名稱
產品名稱
常用軟體名稱
專案名稱
中英文混合的品牌或工具名稱

如果這些字詞常常被聽錯，就可以試著加入聽寫字典。它不一定保證每次都完美，但至少可以增加辨識正確的機會。

另外設定頁裡也可以看到最近聽寫內容。這個設計的好處是，如果你剛剛講了一段內容，後來還想再複製出來，也可以從這裡找。

全域聽寫快捷鍵需要自己設定

這裡有一點我覺得一定要特別提醒。

全域聽寫設定，和 Codex 或 ChatGPT 對話框裡面的聽寫快捷鍵，不是同一件事。

在我的實測環境裡，對話框內的聽寫快捷鍵顯示為 Ctrl + Shift + D。但全域聽寫的部分，預設並沒有快捷鍵，需要使用者自己設定。

所以如果你打開 Codex 設定頁，看到全域聽寫還沒有反應，不一定是功能不能用，而是你可能還沒有幫它設定快捷鍵。

設定快捷鍵時，也不是隨便按一個鍵就可以。

我測試時，如果設定不符合規則，畫面會跳出類似「Shortcut must include Cmd/Ctrl or Alt」的提醒。以 Windows 來說，大概就是快捷鍵裡要包含 Ctrl 或 Alt 這類修飾鍵，而且不能只按單一 Ctrl 或單一 Alt。通常要是 Ctrl 搭配另一個按鍵，或 Alt 搭配另一個按鍵。

我的建議是，選一組自己不容易誤觸，也不會跟常用軟體衝突的快捷鍵。

例如你平常已經常用某些截圖、剪貼簿、輸入法或筆記軟體快捷鍵，就不要再跟它們撞在一起。不然語音輸入還沒開始，先把自己常用的工作流程搞亂，就有點本末倒置了。

實際使用感受：速度快，品質也不差

我自己實測下來，Codex 這個全域聽寫的速度算快。

講完之後，大概 2 到 3 秒左右，就可以看到文字出現。當然實際速度還是會跟網路、電腦狀態、講話長度有關，但整體感覺不會慢到讓人失去耐心。

轉寫品質也比我原本想像中好。

它會自動加上標點符號，也會幫忙去掉一些語助詞或贅字。對日常輸入來說，已經算是可用程度蠻高。

使用時，畫面下方也會出現一個小型的狀態提示。你可以知道它現在是在聆聽，還是在轉寫。這點我覺得很重要，因為全域工具如果沒有狀態提示，使用者會很容易不知道現在到底有沒有啟動成功。

以我的使用情境來說，它很適合拿來做幾件事：

快速把腦中的想法先講出來
回覆比較長的訊息
草擬文章段落
在不同軟體裡輸入文字
先用語音打底，再回頭修文字

這些場景不一定需要完美，但需要夠快、夠順、不要打斷思路。以這個標準來看，我覺得 Codex 全域聽寫是有達到的。

目前還不是專業級語音輸入工具

不過我也不會說它已經可以取代所有專業語音輸入工具。

目前我遇到比較明顯的限制，是偶爾會出現簡體中文。它現在看起來沒有一個很明確的設定，可以強制指定一定要輸出繁體中文。

對台灣使用者來說，這點就會有一點小困擾。

如果只是日常輸入，出現一兩個簡體字，回頭改一下就好。但如果你是要大量產出正式文章，或是很在意格式一致性，那還是要自己檢查。

另外，它也不像某些專門的語音輸入工具，有非常進階的語音指令功能。

例如：

用語音控制分段排版
直接下指令修改前一句
中文口述後自動翻成英文
全選一段文字後用語音改寫
更細緻的自訂詞庫與輸出規則

這些比較進階的功能，目前我不會期待 Codex 全域聽寫都能做到。

所以它比較適合被定位成「快速語音轉文字工具」，而不是完整的語音寫作工作站。

如果你需要的是高強度逐字稿、嚴格格式控制、專業口述排版，那還是要另外找更專門的工具。

適合誰使用？

我覺得 Codex 全域聽寫比較適合幾種人。

第一種，是本來就有在用 Codex 桌面版的人。

這種人最適合先打開試試看。因為工具已經在電腦裡，不用多裝太多東西，也不用重新適應一套完全不同的服務。

第二種，是已經有 ChatGPT 或 OpenAI 訂閱的人。

如果你本來就有訂閱，那這個功能等於是多一個可以利用的附加價值。你不一定要馬上取消其他語音輸入工具，但至少可以多一個備用方案。

第三種，是常常需要在不同軟體之間輸入文字的人。

如果你每天都在瀏覽器、筆記軟體、文件編輯器、聊天工具之間切換，那全域語音輸入的價值會比單一網站內的麥克風大很多。

第四種，是想要先用語音快速打草稿，再人工修一下的人。

這也是我自己最常用的方式。因為很多時候，寫作最卡的不是修文字，而是第一版想法出不來。用語音先講一輪，至少可以讓內容先落地。

但如果你需要非常精準的繁體中文控制、專業逐字稿，或是大量語音指令操作，那它目前可能還不是最適合的主力工具。

隱私與資料使用也要留意

語音聽寫還有一件事不能完全忽略，就是資料處理。

這類功能通常不是純本機離線運算。依照 OpenAI Help Center 針對 Voice Dictation 的說明，使用者按下麥克風後，音訊會送到模型進行轉錄，再回傳成文字。使用者可以在送出前編輯轉錄後的內容。

如果你很在意資料使用，也可以再去看 OpenAI 的 Voice Dictation FAQ，以及 ChatGPT / Codex 相關的資料控制設定。

我的習慣是，這類語音輸入工具可以拿來輸入一般文章草稿、日常筆記、公開可討論的內容。但如果是高度敏感資料，例如密碼、個資、公司機密、醫療細節，我就不會直接用語音輸入工具來處理。

這不是說它一定不安全，而是使用工具前，先知道資料大概會怎麼流動，會比較安心。

如果你本來就在用 Codex，這個功能很值得打開試試

整體來說，我覺得 Codex 全域聽寫是一個蠻實用的延伸功能。

它不一定會取代 Wispr Flow、Typeless、Handy 這類專門的語音輸入工具。畢竟專業工具還是有它們各自的優勢，像是更完整的工作流程、更細緻的語音控制，或是更針對語音輸入設計的介面。

但如果你本來就已經在用 Codex，尤其是已經有 OpenAI 或 ChatGPT 訂閱，那這個功能就很值得打開試試看。

你只要設定好快捷鍵，就可以在電腦不同地方用語音輸入文字。對每天大量打字、常常跟 AI 工具互動的人來說，這種小功能其實很容易默默改變工作習慣。

你可以先把全域聽寫快捷鍵設定好，拿來回幾則訊息、寫幾段筆記、草擬幾段文章。用幾天之後，你大概就會知道它適不適合自己的工作流程。

如果你跟我一樣，常常需要在不同工具之間輸入大量文字，那 Codex 這個全域聽寫功能，應該會是一個蠻值得保留在工具箱裡的選項或備案。

搜尋此網誌

亞瑟 ASK - 職涯隨筆與生活漫談