Gemini 3.5 Live Translate：Google 把即時語音翻譯推向更像真人對話的階段

6/10/2026

Gemini 3.5 Live Translate：Google 把即時語音翻譯推向更像真人對話的階段

如果翻譯不再等你講完，對話會長什麼樣子？

Google 這次把 Gemini 3.5 Live Translate 推上檯面，重點很直接：它要讓語音翻譯跳脫傳統的逐句等待流程，變成更連貫、更自然的即時對話體驗。

這款新一代音訊模型主打 70 種以上語言的近即時語音對語音翻譯，還會盡量保留說話者的語氣、節奏、音高。翻譯後的聲音不會只剩內容正確，整體聽感也更接近真人對話。

這次更新有幾個值得注意的地方。第一，它採用連續式翻譯，不必等對方把整句話講完才開始處理。模型會邊聽邊運算，讓延遲維持在幾秒內，同時保住對話節奏。第二，它支援 70+ 語言，自動偵測語言，使用者不需要一直手動切換設定。第三，它能用在多語會議、課堂、線上訪談、直播、廣播，以及多語客服等場景。

Google 這次沒有把功能停在研究展示，而是直接推進到產品線。開發者可以透過 Gemini Live API 和 Google AI Studio 進入公開預覽。企業端則會先在 Google Meet 進入私人預覽，再逐步擴大開放。一般使用者也會在 Google Translate 的 Android 和 iOS 版本陸續看到這項能力。

這一點很關鍵。很多 AI 模型的 demo 都很漂亮，真正難的是把能力做成每天都能用的功能。Google 這次的做法，就是把語音翻譯直接放進產品線，讓它在展示時好看，也開始能真正進入日常使用。

對開發者來說，另一個重點是底層雜事少了很多。Agora、Fishjam、LiveKit、Pipecat、Vision Agents 這些平台已經能把即時媒體串流的複雜問題接起來，讓開發者更專注於產品體驗，不必自己從零處理整套即時音訊管線。語音翻譯的門檻正在下降，跨語言即時溝通也更接近可量產的產品形態。

Google Meet 這次的升級也很實際。語言數從過去的 5 種提升到 70+ 種，單場會議可支援 2000+ 語言組合，介面也會更新，讓語音翻譯更容易直接叫出來。對跨國會議來說，這代表溝通摩擦會明顯減少，不需要一邊聽人說話，一邊在腦中重新拼字。

Google Translate 也多了一個很務實的新玩法。Android 端推出 listening mode，使用者不一定要插耳機，直接把手機貼近耳朵，就能從聽筒聽到翻譯。對臨時需要翻譯、手邊又沒有耳機的人來說，這比花俏的 demo 實用多了。

安全性也沒有被放掉。Google 提到，所有模型生成的音訊都會加入 SynthID watermark，這是一種不可察覺的水印，用來協助辨識 AI 生成內容，降低誤導風險。語音 AI 一旦進入翻譯、會議、廣播這類真實場景，可辨識性和責任機制就不能省。

整體來看，Gemini 3.5 Live Translate 的升級，不只是翻譯模型變強，也是在把跨語言溝通從工具推向更自然的對話體驗。真正有感的地方，不只是語言數量變多，而是它終於比較不像機器在插話，開始接近人跟人講話的節奏了。這才是即時語音翻譯最值錢的一步。

來源

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-live-3-5-translate/

Search This Blog

metamuse

Gemini 3.5 Live Translate：Google 把即時語音翻譯推向更像真人對話的階段