Gemini 3.5 Live Translate:Google 把即時語音翻譯推向更像真人對話的階段
如果翻譯不再等你講完,對話會長什麼樣子?
Google 這次把 Gemini 3.5 Live Translate 推上檯面,重點很直接:它要讓語音翻譯跳脫傳統的逐句等待流程,變成更連貫、更自然的即時對話體驗。
這款新一代音訊模型主打 70 種以上語言的近即時語音對語音翻譯,還會盡量保留說話者的語氣、節奏、音高。翻譯後的聲音不會只剩內容正確,整體聽感也更接近真人對話。
這次更新有幾個值得注意的地方。第一,它採用連續式翻譯,不必等對方把整句話講完才開始處理。模型會邊聽邊運算,讓延遲維持在幾秒內,同時保住對話節奏。第二,它支援 70+ 語言,自動偵測語言,使用者不需要一直手動切換設定。第三,它能用在多語會議、課堂、線上訪談、直播、廣播,以及多語客服等場景。
Google 這次沒有把功能停在研究展示,而是直接推進到產品線。開發者可以透過 Gemini Live API 和 Google AI Studio 進入公開預覽。企業端則會先在 Google Meet 進入私人預覽,再逐步擴大開放。一般使用者也會在 Google Translate 的 Android 和 iOS 版本陸續看到這項能力。
這一點很關鍵。很多 AI 模型的 demo 都很漂亮,真正難的是把能力做成每天都能用的功能。Google 這次的做法,就是把語音翻譯直接放進產品線,讓它在展示時好看,也開始能真正進入日常使用。
對開發者來說,另一個重點是底層雜事少了很多。Agora、Fishjam、LiveKit、Pipecat、Vision Agents 這些平台已經能把即時媒體串流的複雜問題接起來,讓開發者更專注於產品體驗,不必自己從零處理整套即時音訊管線。語音翻譯的門檻正在下降,跨語言即時溝通也更接近可量產的產品形態。
Google Meet 這次的升級也很實際。語言數從過去的 5 種提升到 70+ 種,單場會議可支援 2000+ 語言組合,介面也會更新,讓語音翻譯更容易直接叫出來。對跨國會議來說,這代表溝通摩擦會明顯減少,不需要一邊聽人說話,一邊在腦中重新拼字。
Google Translate 也多了一個很務實的新玩法。Android 端推出 listening mode,使用者不一定要插耳機,直接把手機貼近耳朵,就能從聽筒聽到翻譯。對臨時需要翻譯、手邊又沒有耳機的人來說,這比花俏的 demo 實用多了。
安全性也沒有被放掉。Google 提到,所有模型生成的音訊都會加入 SynthID watermark,這是一種不可察覺的水印,用來協助辨識 AI 生成內容,降低誤導風險。語音 AI 一旦進入翻譯、會議、廣播這類真實場景,可辨識性和責任機制就不能省。
整體來看,Gemini 3.5 Live Translate 的升級,不只是翻譯模型變強,也是在把跨語言溝通從工具推向更自然的對話體驗。真正有感的地方,不只是語言數量變多,而是它終於比較不像機器在插話,開始接近人跟人講話的節奏了。這才是即時語音翻譯最值錢的一步。
來源