自己做了一个低延迟 Voice Agent,不依赖框架实现极低延迟
最近在折腾 voice agent ,之前用 LiveKit 框架做过几个项目,这次想试试纯 API 调用从零搭建,看看到底能做到什么程度。
做出来发现效果还不错:纯文本对话延迟,如果使用 gemini 2.5 flash lite ~500ms,即使是 2.5 flash 或者 3 flash ,也可以控制在 700ms 。带联网搜索或图片分析也能控制在 1000~1500s 。服务全部部署在美国,因此考虑到跨洋的网络延迟,实际上的表现应该可以更好。顺便做了个动态岛 UI 包装了一下。
附个使用演示视频:
做出来发现效果还不错:纯文本对话延迟,如果使用 gemini 2.5 flash lite ~500ms,即使是 2.5 flash 或者 3 flash ,也可以控制在 700ms 。带联网搜索或图片分析也能控制在 1000~1500s 。服务全部部署在美国,因此考虑到跨洋的网络延迟,实际上的表现应该可以更好。顺便做了个动态岛 UI 包装了一下。
附个使用演示视频:

之所以做这个,也是对语音这个模态比较看好,故自己搓了一个不依赖框架的实现。如果大家有什么好想法,也欢迎讨论😋
P.S 话说是自己“手搓”,但实际上大部分时候也是 AI 完成,只不过是类似于“同学”一般,相互指引跟学习,那既然大部分的代码都是 AI 实现的(虽然这一过程相比于单纯用框架而言学习到了很多),但这种方式还能叫“手搓”吗?