大模型榜单周报(2026/01/24)
本周大模型行业动态频发,美团更新了大规模推理模型LongCat-Flash-Thinking-2601,智谱开源轻量化模型GLM-4.7-Flash,MiniMax发布AI原生工作台。在榜单方面,OpenRouter模型调用量出现显著变化,Claude Opus 4.5调用量大幅下滑,而Claude Sonnet 4.5升至榜首,编程领域竞争激烈,各大公司继续在不同能力维度展开激烈角逐。 关注我,第一时间掌握更多AI前沿资讯!1. 本周概览
2. 重点关注事件
3. 榜单变化
4. 排行榜
测评类型 第一名 第二名 第三名 模型调用量 Claude Sonnet 4.5 MiMo-V2-Flash(free) Grok Code Fast 1 公司市占率 Google Anthropic OpenAI 编程模型调用量 Grok Code Fast 1 Claude Sonnet 4.5 Claude Opus 4.5 各公司按不同能力领域排名汇总
测评类型 领先公司 大语言模型 Text Arena Google、xAI、Anthropic、百度、OpenAI、智谱、阿里巴巴、月之暗面 编程能力 Code Arena Anthropic、OpenAI、Google、智谱、MiniMax 编程能力 LiveCodeBench OpenAI、Anthropic、Google 代码工程任务能力 SWE-benchLite 基于Claude、Gemini、GPT、Qwen、DeepSeek开发的开源系统 图像编辑和生成能力 Image Edit Arena OpenAI、Google、字节、Black Forest Labs、Reve 文生图能力 Text-to-Image Arena OpenAI、Google、Black Forest Labs、腾讯 图像编辑和生成能力 Image Editing Leaderboard OpenAI、Google、字节、Black Forest Labs、阿里巴巴、Reve 文生图能力 Text to Image Leaderboard OpenAI、Google、Black Forest Labs、字节、ImagineArt GPQA OpenAI、Google、xAI、Anthropic、阿里巴巴 FrontierMath OpenAI、Google、DeepSeek、月之暗面、Anthropic、xAI Humanity's Last Exam Google、OpenAI、Anthropic GAIA JoinAI、Nvidia、Suzhou AI Lab&Shuqian Tech、Microsoft AI Asia -Ads、LR AILab of Lenovo CTO Org、ShawnAgent、ZTE-AICloud、LR AILab等





