Gemini 3.1 Flash Live :次世代即時語音 AI 登場
這會不會正是今年蘋果手機的新版 Siri 啊?

今天 Google 正式透過 AI Studio 中的 Gemini Live API 推出了 Gemini 3.1 Flash Live。這項更新主要是為了協助開發者打造能夠即時處理語音與視覺資訊的代理程式,讓 AI 不僅能感知周遭環境,還能以如同人類對話般的速度做出回應。這在延遲表現、穩定性以及對話的自然程度上都是一次重大的進展,也為次世代的語音優先人工智慧提供了關鍵的品質基礎。
在即時互動的情境中,任何些微的延遲都會破壞使用者預期的流暢感。新模型針對這點進行了大幅度的改善,特別是在吵雜的真實環境中,能更精準地過濾背景噪音並穩定觸發外部工具與傳遞資訊。此外,它在複雜指令的遵循能力上也有顯著提升,即使對話出現意料之外的轉折,代理程式依然能維持在設定的防護網內運作,同時支援超過九十種語言的即時多模態對話。
目前已經有不少開發者實際運用這些特性來打造流暢的語音代理程式。舉例來說,Stitch 讓使用者可以透過語音直接參與設計畫面的討論與修改;專為長者設計的陪伴裝置 Hey Ato 則利用了其多語言能力,將日常對話轉化為真實的陪伴連結;而 Wits End 更是整合了新模型強大的角色塑造能力,在角色扮演遊戲中擔任極具戲劇張力的遊戲主持人。這些應用案例充分展示了該 API 如何在實際生產環境中處理多樣化的輸入需求。
整體而言,Gemini 3.1 Flash Live 憑藉極低的延遲與優異的抗噪能力,讓語音 AI 的實際應用變得更加自然且可行。回到我們開頭的疑問:這究竟會不會是新版 Siri 的核心?觀察今年的科技趨勢,各家硬體大廠正積極尋求頂尖的 AI 模型來強化終端設備的體驗。既然市場盛傳蘋果將在今年導入由 Gemini 支援的後端架構,那麼這次發布的即時多模態互動能力,極有可能就是蘋果用來迎戰今年 AI 終端大戰的關鍵武器。
消息來源: https://x.com/googleaistudio/status/2037190639021154820