我们自己写了个 API 中转站的检测工具
我们团队正在做 AI 基础设施方向的工作,日常需要系统性评测各类中转站的可靠性,帮助内部项目做选型决策。
市面上的评测大多是"能不能连上"、"速度怎么样",但对我们来说更关键的问题是:这个接口背后到底在跑什么?有没有在请求或响应上动手脚?
为了把这件事做系统,我们写了 Probe Kit 。输入一个 OpenAI-compatible 接口的 Base URL 、API Key 和模型 ID ,跑 9 大类检测:
- 模型身份——实际跑的是不是你以为的那个模型
- 提示词完整性——system prompt 和护栏有没有被剥离
- 协议规范——stop sequence 、采样参数等是否真实透传
- 工具调用——tool_calls 结构有没有被改写
- 上下文窗口——长上下文是否被截断
- 缓存与流式——本否伪流式、缓存重放
- 计费——usage 、token 数是否可信
- 安全——会话隔离、凭据泄漏、隐藏追踪载荷
- 性能——TTFT 、延迟、吞吐量
说明一下费用:检测过程会产生实际 API 调用,以 Opus 4.5 级别的模型为例,跑一次完整检测的 token 消耗约 0.5 美元,时间约 3-5 分钟。建议用临时 Key ,跑完删掉。
官网: https://probe-dev.commonstack.ai
如果你也在评估中转站,欢迎聊聊测出的结果,或者来官网直接试用。