自己做了一个低延迟 Voice Agent，不依赖框架实现极低延迟

时间: 2026-02-18

分类:

最近在折腾 voice agent ，之前用 LiveKit 框架做过几个项目，这次想试试纯 API 调用从零搭建，看看到底能做到什么程度。

做出来发现效果还不错：纯文本对话延迟，如果使用 gemini 2.5 flash lite ~500ms,即使是 2.5 flash 或者 3 flash ，也可以控制在 700ms 。带联网搜索或图片分析也能控制在 1000~1500s 。服务全部部署在美国，因此考虑到跨洋的网络延迟，实际上的表现应该可以更好。顺便做了个动态岛 UI 包装了一下。

附个使用演示视频：

之所以做这个，也是对语音这个模态比较看好，故自己搓了一个不依赖框架的实现。如果大家有什么好想法，也欢迎讨论😋

P.S 话说是自己“手搓”，但实际上大部分时候也是 AI 完成，只不过是类似于“同学”一般，相互指引跟学习，那既然大部分的代码都是 AI 实现的（虽然这一过程相比于单纯用框架而言学习到了很多），但这种方式还能叫“手搓”吗？

标签: none

自己做了一个低延迟 Voice Agent，不依赖框架实现极低延迟

添加新评论

最新文章

最近回复

分类

归档

其它