标签 真实倍率 下的文章

今日为保稳定,遂开通,但感觉额度略少。以及倍率略高,遂以个人方法测试。
PS:仅使用个人语料库测试,算法各有不同,可保证复现

日期范围:2026-01-11

数据来源:/root/.codex/sessions/2026/01/11/rollout-*.jsonl

计算脚本:codex 倍率计算.py:1

重要说明

1. 本报告使用的是 Codex 本机 rollout 会话文件中 token_count 事件的累计 token 统计;不依赖任何主观估计。

2.“缓存折扣系数 α=0.1” 无法从日志中自动推断(日志只记录 cached_input_tokens 数量,不记录计费规则 / 账单),因此本报告把它作为 “外部配置输入” 参与计算。

3. 同一天如果继续使用 Codex,会新增 / 更新更多 rollout,导致 “当日汇总值” 变化;本报告反映的是运行脚本时刻在该目录内可解析到的结果。

  1. 计费配置(输入参数)
  • 输入单价 Pin = $0.8750 / 1M tokens

  • 输出单价 Pout = $7.0000 / 1M tokens

  • 输出 / 输入价格比 r = Pout / Pin = 8

  • 缓存折扣系数 α = 0.1(即缓存输入 token 按输入价的 10% 计费)

  • 有效工作量口径:W = U + O(新增输入 + 输出)

———

  1. 日志字段与符号定义(从 rollout 直接读取)

从每个 rollout-*.jsonl 的 event_msg.type=token_count 的 info.total_token_usage 取:

  • I = input_tokens(总输入 token)

  • C = cached_input_tokens(命中缓存的输入 token)

  • U = I - C(未命中 / 新增输入 token)

  • O = output_tokens(输出 token)

———

  1. 指标定义(“基准词 + 真实倍率”)

为把 “输出更贵、缓存更便宜” 的成本结构统一到一个尺度,采用 “等价输入 token” 折算:

  • 等价基准词(Equivalent Baseline Tokens)

    E = U + α*C + r*O

  • 有效工作词(Work Tokens)

    W = U + O

  • 真实倍率(Real Multiplier)

    M = E / W

并给出对应成本与 “有效单价”:

  • 输入成本 Cin = (U + α*C) / 1e6 * Pin

  • 输出成本 Cout = O / 1e6 * Pout

  • 总成本 Ctotal = Cin + Cout

  • 有效单价(每 1M 有效工作词)P_eff = Pin * M

———

  1. 取数范围与纳入情况(可复现)
  • 当天目录内存在多个 rollout-*.jsonl;脚本实际读取到 5 个包含可用 token_count 的 rollout 并纳入汇总。

  • 复现命令(本报告实际使用):

    python3 codex 倍率计算.py --date 2026-01-11 --pin 0.875 --pout 7 --alpha 0.1 --sessions-root /root/.codex/sessions --denom U+O --breakdown --classify

———

  1. 当日汇总结果(5 个 rollout 合计)

Token 汇总

  • I = 16,882,855

  • C = 16,058,496

  • U = 824,359

  • O = 145,980

  • 缓存命中率 C/I = 95.117182%

倍率汇总(α=0.1,W=U+O)

  • E = 3,598,048.6

  • W = 970,339

  • 真实倍率 M = 3.708033×

  • 有效单价 P_eff = $3.244528 / 1M 有效工作词

成本拆分(美元,按 α=0.1)

  • Cin = $2.1264325

  • Cout = $1.0218600

  • Ctotal = $3.1482925

  • 基准成本(把 W 全部按输入价计费):baseline_cost = $0.8490466

  • 成本倍率(与 M 一致):Ctotal /baseline_cost = 3.708033×

———

  1. 分会话(rollout)结果与 “模拟用户行为” 分类(基于日志回放)

说明:这里的 “模拟用户行为” 并非人工控制实验,而是对已有会话做回放式归类(依据:提示相似度 + 工具调用密度)。为对外展示,本报告不展示原始提示词全文,仅展示分类、token 与倍率。

  • rollout-2026-01-11T09-49-54-019baabe-e078-7fe2-9d1b-3a11c91e51ac.jsonl

    • 分类:cold_start

    • I/C/U/O = 34,663 / 33,664 / 999 / 88

    • 命中率:97.117964%

    • 真实倍率 M:4.663661×

  • rollout-2026-01-11T09-53-11-019baac1-e04c-72c3-a7df-d5c5d0eb98b2.jsonl

    • 分类:cold_start

    • I/C/U/O = 11,521 / 10,752 / 769 / 97

    • 命中率:93.325232%

    • 真实倍率 M:3.025635×

  • rollout-2026-01-11T09-55-03-019baac3-963c-7353-9849-2614a76f03b6.jsonl

    • 分类:tools_dense(工具调用密集)

    • 工具调用统计(来自 rollout):exec_command=156, update_plan=24, apply_patch=20, write_stdin=8

    • I/C/U/O = 11,633,072 / 11,147,008 / 486,064 / 73,377

    • 命中率:95.821706%

    • 真实倍率 M:3.910655×

  • rollout-2026-01-11T10-34-55-019baae8-149c-7e82-ac18-2de8db88bc1b.jsonl

    • 分类:tools_dense

    • 命中率:93.960516%

    • 真实倍率 M:3.433297×

  • rollout-2026-01-11T11-21-02-019bab12-4eef-7d83-96b4-6de8dc37feb6.jsonl

    • 分类:tools_dense

    • 工具调用统计:exec_command=44, write_stdin=8

    • I/C/U/O = 911,345 / 834,048 / 77,297 / 22,605

    • 命中率:91.518360%

    • 真实倍率 M:3.418768×

———


📌 转载信息
转载时间:
2026/1/12 10:38:09