Gemini 3.5 Live Translate:Google 把即時語音翻譯推向更像真人對話的階段
如果翻譯不再等你講完,對話會長什麼樣子? Google 這次把 Gemini 3.5 Live Translate 推上檯面,重點很直接:它要讓語音翻譯跳脫傳統的逐句等待流程,變成更連貫、更自然的即時對話體驗。 這款新一代音訊模型主打 70 種以上語言的近即時語音對語音翻譯,還會盡量保留說話者的語氣、節奏、音高。翻譯後的聲音不會只剩內容正確,整體聽感也更接近真人對話。 這次更新有幾個值得注意的地方。第一,它採用連續式翻譯,不必等對方把整句話講完才開始處理。模型會邊聽邊運算,讓延遲維持在幾秒內,同時保住對話節奏。第二,它支援 70+ 語言,自動偵測語言,使用者不需要一直手動切換設定。第三,它能用在多語會議、課堂、線上訪談、直播、廣播,以及多語客服等場景。 Google 這次沒有把功能停在研究展示,而是直接推進到產品線。開發者可以透過 Gemini Live API 和 Google AI Studio 進入公開預覽。企業端則會先在 Google Meet 進入私人預覽,再逐步擴大開放。一般使用者也會在 Google Translate 的 Android 和 iOS 版本陸續看到這項能力。 這一點很關鍵。很多 AI 模型的 demo 都很漂亮,真正難的是把能力做成每天都能用的功能。Google 這次的做法,就是把語音翻譯直接放進產品線,讓它在展示時好看,也開始能真正進入日常使用。 對開發者來說,另一個重點是底層雜事少了很多。Agora、Fishjam、LiveKit、Pipecat、Vision Agents 這些平台已經能把即時媒體串流的複雜問題接起來,讓開發者更專注於產品體驗,不必自己從零處理整套即時音訊管線。語音翻譯的門檻正在下降,跨語言即時溝通也更接近可量產的產品形態。 Google Meet 這次的升級也很實際。語言數從過去的 5 種提升到 70+ 種,單場會議可支援 2000+ 語言組合,介面也會更新,讓語音翻譯更容易直接叫出來。對跨國會議來說,這代表溝通摩擦會明顯減少,不需要一邊聽人說話,一邊在腦中重新拼字。 Google Translate 也多了一個很務實的新玩法。Android 端推出 listening mode,使用者不一定要插耳機,直接把手機貼近耳朵,就能從聽筒聽到翻譯。對臨時需要翻譯、手邊又沒有耳機的人來說,這比花俏的 demo ...