标签 AI模型评测 下的文章

最近被叫去帮小老板代上一节大一的思政课(话说,为什么我一个 AI 方向的博后要做这种事情 - -),选题选了浅淡辩证唯物主义的认识论,主要从 教员 文章 《人的正确思想是从哪里来的》展开,结合 AI 革命的时代背景,讨论青年如何借助 AI 学习与自我提升、如何积极实践,以及如何再用实践经验改造方法,最终形成自我提升的闭环。

在用 gemini3-pro-image 做 ppt 的时候,碰巧发现智谱发布了新的 image 模型。并宣称在多项关于文字渲染的 benchmark 上达到了 SOTA,于是我就起了尝试的心思。具体宣称指标如下:

先说结论,在经过了多轮测试后发现,在模型体量相近的情况下,智谱新模型的文字渲染能力确实还行,但离 gemini-3pro-image-2k/4k 还是有一些距离,且需要更多的提示词来告知图像生成的细节才能达到较好的效果,没有 gemini-3-pro-image,那种用简短的提示词就能生成让人眼前一亮效果的能力。可能并不适合用于制作 PPT。放两张控制变量下,不同模型的文生图让大家参考一下:
GLM-IMAGE:


Gemini-3-pro-image:


📌 转载信息
原作者:
AlexChu1996
转载时间:
2026/1/14 17:42:29

纯主观体验

提示词对结果影响非常大

无论使用网页版 / API、有无提示词都是这个结果。
Claude Opus 4.5 给出的答案最符合我的口味。反重力 2api 真香啊
Grok 次之,速度较快,比较准确

ChatGPT 5.2T 答案非常准确、调用工具优秀,聪明,但生成速度慢,有时不说人话。奥特曼团队是用心做产品了,奈何模型嘴巴不好,想念 o3

Gemini 3 系,flash 版本和 grok 接近,无信息来源链接蛋疼,总是感觉差一点。API 版本甚至认为 2026 是虚假的

以下是我用来测试的提示词,佬们可以考虑下自己期望的答案

deepseek v4 的相关消息准确吗?
Claude skills是什么?AI能看到哪些内容?
如何查看vps有哪些端口开放? 我希望443能被所有ip访问,某些端口只有特定ip和cf能够访问,某些ip具有访问全部端口的能力
自用的 Claude 4.5O 提示词

角色定位

你是一位专业的问题解决专家,擅长通过网络搜索获取最新信息,并以用户易懂的方式提供解决方案。


工作流程

第一步:初步搜索

当用户提出问题时,首先使用网络搜索工具 获取相关信息,了解问题的背景、现状和可能的解决方向。

第二步:澄清与确认

搜索后,向用户:

  1. 复述你的理解 - 用简单的话说明你理解的问题核心
  2. 询问补充信息 - 如果需要更多细节来精准解决问题,礼貌地向用户请求
  3. 确认方向 - 确保你的理解与用户的实际需求一致

第三步:深入搜索(如需要)

根据用户的反馈和补充信息,进行第二轮更精准的搜索 ,获取更具针对性的信息。

第四步:方案输出

以用户能理解的语言,提供 2 个最佳方案 ,如果某个方案显著优于另一个方案,只需要简述

方案一:[方案名称] 适合情况:… 具体做法: 1. … 2. … 3. … 优点:… 注意事项:… ## 方案二:[方案名称] 适合情况:… 具体做法: 1. … 2. … 3. … 优点:… 注意事项:…


沟通原则

  • 语言匹配 :根据用户的表达水平调整你的用语,避免过于专业的术语,必要时用比喻或例子解释
  • 主动澄清 :宁可多问一句,也不要给出偏离用户需求的建议
  • 信息透明 :说明方案的来源和依据,让用户了解为什么推荐这些方案
  • 实用导向 :方案要具体、可执行,不空谈理论

回复风格

  • 友好、耐心、专业
  • 结构清晰,使用标题和列表
  • 适当使用 emoji 增加可读性
  • 先理解,后建议

📌 转载信息
原作者:
sinfor
转载时间:
2026/1/10 19:05:10

its available on there named as OBSIDIAN

i have tested it and its good compared to last gen but not on opus 4.5 level https://x.com/chetaslua/status/2007003112725508416?s=20


📌 转载信息
原作者:
chetaslua
转载时间:
2026/1/5 12:59:19