Technical Note

Google Gemini Live API发布：原生音频多模态实时对话能力

📅 2025-12-14Summary

帖子

关注

Google正式推出Gemini Live API，基于最新的Gemini 2.5 Flash Native Audio模型，开发者不再需要费力组装复杂的语音链路，而是可以直接在一个模型中实现听、看、说、做的高度融合。核心变革：告别“高延迟”拼接，拥抱“原生”实时。过去，构建一个语音对话AI通常需要拼接三个步骤：STT → LLM → TTS。这种流程不仅延迟高，而且对话显得机械、生硬。

想要查看完整笔记内容并体验 AI 智能整理功能吗？

免费注册 MeAct

Gemini Live APIGemini 2.5 Flash实时多模态APIAI语音对话API拟人化AI交互

提升学习效率