我们团队正在做 AI 基础设施方向的工作,日常需要系统性评测各类中转站的可靠性,帮助内部项目做选型决策。
市面上的评测大多是"能不能连上"、"速度怎么样",但对我们来说更关键的问题是:这个接口背后到底在跑什么?有没有在请求或响应上动手脚?
为了把这件事做系统,我们写了 Probe Kit 。输入一个 OpenAI-compatible 接口的 Base URL 、API Key 和模型 ID ,跑 9 大类检测:

  1. 模型身份——实际跑的是不是你以为的那个模型
  2. 提示词完整性——system prompt 和护栏有没有被剥离
  3. 协议规范——stop sequence 、采样参数等是否真实透传
  4. 工具调用——tool_calls 结构有没有被改写
  5. 上下文窗口——长上下文是否被截断
  6. 缓存与流式——本否伪流式、缓存重放
  7. 计费——usage 、token 数是否可信
  8. 安全——会话隔离、凭据泄漏、隐藏追踪载荷
  9. 性能——TTFT 、延迟、吞吐量
    说明一下费用:检测过程会产生实际 API 调用,以 Opus 4.5 级别的模型为例,跑一次完整检测的 token 消耗约 0.5 美元,时间约 3-5 分钟。建议用临时 Key ,跑完删掉。

官网: https://probe-dev.commonstack.ai

如果你也在评估中转站,欢迎聊聊测出的结果,或者来官网直接试用。

标签: none

添加新评论