Gemini 3.1 Flash TTS 登場:AI 語音開始從能唸,走向能演

 

當 AI 已經能控制語氣、節奏,甚至開始有角色感之後,語音市場接下來要變的,就不只是更像真人而已,連 Podcast、旁白、廣播劇、客服語音這些場景,都可能一起被推著往前走。

Google AI Studio 最近發布 Gemini 3.1 Flash TTS,這次想解的已經不是「把文字轉成聲音」這麼基本的事了。它更像是在往上補齊一整套語音控制能力,讓開發者可以更細地指定 AI 要怎麼講、用什麼情緒講,甚至一句話講到一半還能轉口氣。

這次官方主打的重點很集中,語音更自然、控制更細、支援更多語言。Google 提到 Gemini 3.1 Flash TTS 在 Artificial Analysis 的 TTS 排行榜拿到 1,211 Elo 分數,這代表它在人類盲測偏好裡已經有很前面的表現。這種榜單成績當然不能直接當成市場全勝保證,但至少看得出來,Google 這次是認真在推產品,不是在例行更新裡交一份差不多的版本。

這次最值得看的,是它加入了 audio tags。這東西一出來,整個操作感就差很多。使用者可以直接用自然語言去描述聲音該怎麼表現,像是語速、情緒、口氣、風格,甚至把角色互動也一起安排進去。這很有意思,因為它把原本偏技術、偏參數設定的東西,轉成一般人也看得懂、敢直接玩的文字指令。工具只要跨過這個門檻,擴散速度通常都會快得很誇張。

再往下看,Google 其實已經把目標放得很明白。Gemini 3.1 Flash TTS 支援多說話者對話、超過 70 種語言,還能把調好的聲音設定直接匯出成 Gemini API 程式碼。這代表它瞄準的不是單次展示效果,而是想進到真正的產品流程裡。客服、自動旁白、教學內容、品牌角色語音、企業影片配音,這些都很可能是它真正要吃的場景。

還有一個很關鍵的細節,是 Google 把開發者放進所謂的「導演椅」。這個說法其實很準。因為現在大家比的,早就不只是模型能不能發出夠像人的聲音,而是能不能穩定做出想要的聲音版本,而且每次都能複製、調整、延伸。誰先把這套工作流做順,誰就比較有機會吃下下一波 AI 語音平台市場。

當然,語音模型越來越強,風險也會一起變大。Google 這次強調所有 Gemini 3.1 Flash TTS 產生的音訊都會帶有 SynthID 浮水印,這點很必要。因為當 AI 聲音自然到某個程度之後,外界在意的就不會只有好不好用,還會開始追問這段聲音到底是不是 AI 生成、能不能被辨識、會不會被拿去亂搞。這種保護機制沒有先補起來,後面一定會出事。

整體來看,Gemini 3.1 Flash TTS 這次更新很有企圖心,而且方向抓得很準。現在的 AI 語音競爭,已經慢慢從「誰比較像真人」走到「誰更能把聲音做成可控、可商用、可規模化的基礎能力」。如果這條路繼續往下走,未來聽到的 AI 聲音,可能就不只是助理在幫忙念稿,而會更像一套真的有設計感、有角色感、也有商業價值的數位聲音系統。

但這個明明是很關鍵的一次更新, Google 卻是很不特別、很一般、很平淡的在 X 上發布更新消息。

消息來源: