Gemini 3.1 Flash TTS 登場：AI 語音開始從能唸，走向能演

4/16/2026

Gemini 3.1 Flash TTS 登場：AI 語音開始從能唸，走向能演

當 AI 已經能控制語氣、節奏，甚至開始有角色感之後，語音市場接下來要變的，就不只是更像真人而已，連 Podcast、旁白、廣播劇、客服語音這些場景，都可能一起被推著往前走。

Google AI Studio 最近發布 Gemini 3.1 Flash TTS，這次想解的已經不是「把文字轉成聲音」這麼基本的事了。它更像是在往上補齊一整套語音控制能力，讓開發者可以更細地指定 AI 要怎麼講、用什麼情緒講，甚至一句話講到一半還能轉口氣。

這次官方主打的重點很集中，語音更自然、控制更細、支援更多語言。Google 提到 Gemini 3.1 Flash TTS 在 Artificial Analysis 的 TTS 排行榜拿到 1,211 Elo 分數，這代表它在人類盲測偏好裡已經有很前面的表現。這種榜單成績當然不能直接當成市場全勝保證，但至少看得出來，Google 這次是認真在推產品，不是在例行更新裡交一份差不多的版本。

這次最值得看的，是它加入了 audio tags。這東西一出來，整個操作感就差很多。使用者可以直接用自然語言去描述聲音該怎麼表現，像是語速、情緒、口氣、風格，甚至把角色互動也一起安排進去。這很有意思，因為它把原本偏技術、偏參數設定的東西，轉成一般人也看得懂、敢直接玩的文字指令。工具只要跨過這個門檻，擴散速度通常都會快得很誇張。

再往下看，Google 其實已經把目標放得很明白。Gemini 3.1 Flash TTS 支援多說話者對話、超過 70 種語言，還能把調好的聲音設定直接匯出成 Gemini API 程式碼。這代表它瞄準的不是單次展示效果，而是想進到真正的產品流程裡。客服、自動旁白、教學內容、品牌角色語音、企業影片配音，這些都很可能是它真正要吃的場景。

還有一個很關鍵的細節，是 Google 把開發者放進所謂的「導演椅」。這個說法其實很準。因為現在大家比的，早就不只是模型能不能發出夠像人的聲音，而是能不能穩定做出想要的聲音版本，而且每次都能複製、調整、延伸。誰先把這套工作流做順，誰就比較有機會吃下下一波 AI 語音平台市場。

當然，語音模型越來越強，風險也會一起變大。Google 這次強調所有 Gemini 3.1 Flash TTS 產生的音訊都會帶有 SynthID 浮水印，這點很必要。因為當 AI 聲音自然到某個程度之後，外界在意的就不會只有好不好用，還會開始追問這段聲音到底是不是 AI 生成、能不能被辨識、會不會被拿去亂搞。這種保護機制沒有先補起來，後面一定會出事。

整體來看，Gemini 3.1 Flash TTS 這次更新很有企圖心，而且方向抓得很準。現在的 AI 語音競爭，已經慢慢從「誰比較像真人」走到「誰更能把聲音做成可控、可商用、可規模化的基礎能力」。如果這條路繼續往下走，未來聽到的 AI 聲音，可能就不只是助理在幫忙念稿，而會更像一套真的有設計感、有角色感、也有商業價值的數位聲音系統。

但這個明明是很關鍵的一次更新， Google 卻是很不特別、很一般、很平淡的在 X 上發布更新消息。

消息來源：

Search This Blog

metamuse

Gemini 3.1 Flash TTS 登場：AI 語音開始從能唸，走向能演