HodlAI 上下文限制问题
背景
我通过 OpenClaw 接入 HodlAI ,使用的是 hodlai/claude-sonnet-4.5
遇到的问题
在对话进行到一定长度后,请求开始被拦截,返回如下错误:
400 Request blocked: context too large (estimated 50012 tokens, limit 50000
without cache). No cache available: tools: not_cached. Reduce context or send
smaller requests first to warm up cache.
从这条错误信息可以看到,HodlAI 的上游中继层对单次请求的上下文设置了 50000 token 的硬限制。而 Claude Sonnet 4.5 原生支持 200k+ 的上下文窗口,所以这个限制是代理层设置的,不是模型本身的限制。
想请教的几个问题
1. 这个 50k 限制有文档说明吗?
我在 README 、文档、定价页面都没有找到关于 50000 token 上下文限制的说明。如果有的话,能指一下在哪里吗?如果目前没有的话,能否考虑在文档中标注一下?这样用户可以提前在客户端做好配置,避免踩坑。
2. 有缓存时的限制是多少?
错误信息提到 limit 50000 without cache,那有缓存的情况下限制是多少?缓存的触发条件是什么?有没有最佳实践可以分享?