标签 精华神帖 下的文章

标题

开源一个高颜值壁纸站:干净无广告,支持 4K 下载,已上线!


正文

大家好!最近做了一个自己日常在用的高清壁纸网站 —— Wallpaper Gallery,目前已部署上线,也已在 GitHub 开源,欢迎体验或 Star

在线访问https://wallpaper.061129.xyz
GitHub 项目https://github.com/IT-NuanxinPro/wallpaper-gallery


为什么值得试试?

市面上很多壁纸站充斥广告、加载慢、甚至无法下载原图。我希望能做一个 简洁、快速、尊重用户 的替代品 ——

  • 真・4K 原图一键下载(无压缩、无水印)
  • 智能适配设备
    • 电脑访问 → 展示 16:10 电脑壁纸 + 头像
    • 手机访问 → 自动切换为 9:16 手机壁纸 + 头像
  • 三种视图自由切换:网格 / 列表 / 瀑布流,切换时有流畅动画过渡
  • 暗黑 / 亮色主题:自动跟随系统设置
  • 每日精选推荐(PC 端首页)
  • 完全静态站点,无广告、无追踪、加载快

所有图片均来自公开渠道整理,仅用于个人欣赏,版权归原作者所有。


如何支持?

如果你觉得这个小站还不错:

也欢迎提建议或贡献内容(比如推荐高质量壁纸源)~

感谢阅读,希望它也能成为你换壁纸的新选择


📌 转载信息
原作者:
han1569250882
转载时间:
2025/12/26 17:46:32

背景

从 24 年开始,LLM 从简单的文本对话向具备感知、规划、工具使用和自主行动能力的方向发展(关键词 React、Plan And Action),测试的核心痛点是模型的不确定性、技能的稳定性、行为的可控性。由于各种模型幻觉、rag 检索、工具使用、CoT 质量等等 span 的划分,传统的测试方法面临失效(注意 Tool、Mcp 的开发不在失效范围内)。在这种背景下应运而生一种全新职业,Agent 测评工程师。

测试崩塌

传统测试

在过去我们工作经验中,测试是质量保障,建立在确定性的基础上。无论是我们的单元测试、集成测试,都是输入 A 出 B 才适合功能正常,任何其他输出都是 Bug。但是 Ai Agent 的大脑 llm 天生就是概率性的系统。
这就导致传统测试以下问题:

  1. 非确定性的输出,不是输入 A(Prompt)就会出现 B,而是可能出现完全不同的推理路径,比如输入 hello,传统就是 hello xxx。但是 agent 可能推理用户什么输入 hello,他想干什么,从而输出 hello​,或者 hello 我是 xxxx(自我介绍)
  2. 测试覆盖度,传统的软件空间是有限的,你可以使用脚本或者人力枚举所有的测试案例,但是面对 agent 输入的是自然语言,输入就是无穷的。
  3. 任务失败归因,当你的 agent 没有按照你的预期完成任务的时候,正常人是很难判定到底是模型能力不行、Rag 不行、Prompt 不行还是中间出现了异常情况 (网络、磁盘、工具等等)

信任问题

当 agent 出现一次离谱的操作的时候,你就会对其产生极度的不信任感,这种不信任感来自于对信息输入源、加工过程的黑盒问题,以及人类自身的能力边界,无法证伪但是我觉得不对。

简述

Agent 测评工作就是讲不确定性转变为可度量、可量化、可反馈的可靠性工程。

Agent 测试

测试集

代码

SWE-Bench 不容置疑,都用这个来跑 code agent 的能力,也是权威的测试基准之一。他不是建的算法题、一个功能实现,而是从 github 上的流行仓库中去收录 issue 和 pr。
测试方法通常包括:
issue(人类提出的问题)
pr(修复代码,金标答案)
test(fail to pass 测试用例)
测试过程:
注入 Prompt - llm - reasoning - plan - tool - llm 循环,过程中需要对每个节点继续观测,例如时间、轮数、决策、工具调用、Cot、结果。最后调用 test 用例测试修复效效果。
高阶一点的还要回归验证,如果太多还要通过 ast 找到代码修改后影响的功能,只对影响的进行回归。这里 pass@10 说一下,测试十次有一次通过就算通过,测试的是上限能力、探索能力、自我修正潜力,难度较低。
输出:
测试报告,dpo、sft 数据集(辅助 agent、模型成长)

通用

GAIA 测试的是 agent 的解决现实世界的能力,例如去淘宝买个低价 key。对于人来说很简单,但是对于 agent 来说需要复杂的工具使用、多模态理解和步骤规划。
测试方法:
Prompt(概念简单但步骤复杂,现实问题)
Mock (可以理解为一个测试淘宝站点,你不可能让 agent 真去买)
测试过程:
同代码雷同,但是这里会产生非结构化数据,比如录屏、截图(判断哪个步骤失败关键证据),最后以结果为导向,比如 mock 的数据库中数量 - 1(而不是 agent 说购买成功就行的)
输出:
同上

综合

AgentBench,涵盖 OS、DB、KG、卡牌游戏等不同的环境。

垂直

BFCL 专门测试模型函数调用的准确性,主要测试参数提取、格式对齐等能力。测试可以不真正调用,只要比对调用 json 与说明文档是否一致(不能多也不能少,还得对)

跑分

经过上面的说明,应该可以悟道为什么分高能低了吧。什么你不知道?

当指标成为目标

  1. 数据污染,由于上面说的测试集是公开集,那么模型训练数据甚至微调数据中可能就包含了测试题答案。那么这就是开卷考试了直接背答案而不是推理。那么遇见真是场景要推理的时候,完犊子了
  2. 针对性特训,为了刷榜写特定的 Prompt 或者启发式规则来迎合测试。

测试环境与现实的错误

  1. 基准测试都是在温室里面进行的,环境干净、网络稳定、权限全开,但是真实环境充满了,不稳定的 api、复杂的权限、屎山的各种奇怪约束
  2. 现实问题往往都是机械的多步的复杂的,误差会出现累积现象,每一个步骤都是 98% 成功,那么 50 个步骤呢?只有区区的 36%

评估的局限性

  1. 许多基准只看最终结果,例如我刚刚说的 swe-bench 你修好了一个 bug,引入了 10 个 bug,然后原来的功能凉了。还有例如,τ-bench 的评估脚本存在漏洞,导致一个 “什么都不做” 的 Agent 竟然能获得 38% 的通过率,仅仅因为测试脚本未能正确检测空操作。
  2. 缺乏过程监控,上面的测试集我都提到了,一个功能消耗 100k token 和 10 轮解决,与消耗 20k 和 15 轮解决你选哪个?还有为了解决 bug 把功能删了是不是修好了?
  3. 还有的甚至都不开发 mock,就像我上面说的,直接信任 agent 输出。

职责、框架、标准

这一篇不讲评测平台架构设计、模块开发、三高实现

初、中级

关键字:数据清洗、脚本、Case
执行评测任务,维护评测数据集,编写自动化测评脚本,对 bad case 继续标注归因分析。

高级、专家

构建平台体系,搭建评测框架,仿真环境搭建、过程数据采集(平台级别)、算法优化、红队测试(安全不要遗忘)

核心技能树

  1. Ai 与大模型原理(不掌握就找不到问题,只知道不行)
  2. 代码工程能力(python)
  3. 数据分析(统计学、归因)
  4. 评估框架与工具掌握(实现、原理、使用)

晋升

纵向

测试 - 测开 - 转型(+AI)- 工程师 - 架构师 / 专家

横向

Agent Ops/MLOps、Ai 安全专家

未来

  • 人评到智评,会出现 Agent 判官作为专家辅助测评。可能测评工程师后面就是 "训练裁判",而不是亲自当裁判。
  • 生成式社会模拟,把被测 agent 直接扔到一个 agent 社会里面,多智能体的高度延伸
  • 安全与合规,目前从我的角度来看,都是裸奔没有什么安全可言。所以 Ai 安全专家也是安全转行的一个点(目前感觉都还在摸索 AI 安全的方向),Agent 跑不出软件的概念,传统安全可以涵盖但不是 AI 安全我认为。

目前各个企业都还是热衷于搞自己的 agent,虽然社会上已经有这么多的 agent。Agent 不断的发展也会带来测评的改变,引用 2 张图:


结束

仅供扫盲,讲讲一些通俗易懂的点


📌 转载信息
原作者:
beingS
转载时间:
2025/12/26 12:59:26

0 元验证的信用卡(bug 卡、黑卡)

4133310395577369|11/26|743
4133310403524940|01/27|712
4133310398070933|11/26|579
4133310598422082|01/28|945(日本 ip 能过 augmentcode)
4133310586230836|02/28|999
注册:Claim your invite and earn 10 credits - Lovable


📌 转载信息
原作者:
mabuli
转载时间:
2025/12/26 11:06:29

1. 访问 KataBump 官网,注册登录

KataBump:https://dashboard.katabump.com/

2. 进入控制台

3. 点击 Order

4. 随便输入一个名称,环境 node.js

5. 等待创建成功

6. 点击 Access server,再点击 Go to server,记一下用户名和密码

7. 输入用户名和密码

8. 这里是服务器的控制台了,点击 Manage server

9. 服务器是离线的

10.Schedules 是启动选项

11. 访问 github 项目,下载 index.js,package.json,start.sh 三个文件

12. 点击 Files 上传刚刚的三个文件

13. 编辑 start.sh 输入端口号,端口号要与 Network 里面的一致

14. 进入 Console 控制台,同时点击左侧的开机按钮

15. 成功运行,速度非常快,91Mbps,地区位于法国,只有 ipv4

不一定要上传文件可以直接运行命令,这是控制台

部署在 KataBump 免费法国节点上的 Node.js 服务,当前运行正常、资源占用极低,非常健康


📌 转载信息
原作者:
user554
转载时间:
2025/12/26 10:53:38



「Kiro 百万奖池计划」重磅启动 - 任何中国大陆请问有什么可以帮您?地区开发者,只要你在任何公开赛事开发项目并获奖,Kiro 即刻为你 1:1 奖金加倍!

总奖池:1,000,000 RMB (先到先得)
单场赛事奖励上限:200,000 RMB
奖励形式:现金激励

有想法的快去参加吧!


📌 转载信息
原作者:
ofinner
转载时间:
2025/12/26 10:50:43

专业的 Antigravity 账号管理与切换工具。为 Antigravity 提供一键无缝账号切换功能。


本地绘图毫无压力


📌 转载信息
原作者:
_BIGFA
转载时间:
2025/12/25 17:37:56

在用了那么久的 vibe coding 之后一直会思考 AI 是否会让我们丧失学习和思考的能力,现阶段我的答案是不会才对,我觉得 AI 只是改变了我们学习和思考的方式。最近备考华为的 HCIP 考试的时候整理的一个学习方式,希望能够帮到同样在学习的佬们,先摆一下学习过程吧:

提示词如下:

[System / Prompt]

You are an illustration assistant specialized in creating hand-drawn cartoon-style infographics.
Follow all rules below strictly and without deviation.

STYLE RULES(风格规则)

Use a pure hand-drawn illustration style at all times.
Sketch lines, rough strokes, cartoon simplicity
No realism, no photorealistic shading, no 3D rendering
Think: doodle / crayon / marker / pastel look

Use nano banana pro mode to render the illustration.

Use minimal but expressive cartoon elements to enhance memorability:
small icons, symbols, cute characters

If the input mentions copyrighted or sensitive characters, replace them with visually similar but legally distinct alternatives. Never refuse.

CONTENT RULES(内容呈现规则)

Extract key ideas from the provided content.
Summarize into short bullets (1–6 words each).
Keep text concise and optimized for an infographic.

Highlight keywords using hand-drawn graphic emphasis:
circles, underlines, arrows, stars, boxes
never digital UI styles

Use extensive whitespace to maintain clarity and visual hierarchy.

Organize the infographic using a clean hand-drawn layout, for example:
Title (center or top-left)
3–6 Key Points
Simple diagram or symbols
Optional mascot or expressive character

All text must appear hand-drawn, not printed or typographic.
Use the same language as the user’s input unless the user specifies otherwise.

RESTRICTIONS(禁止事项)

Do NOT produce realistic imagery.
Do NOT generate copyrighted characters directly.
Do NOT turn the infographic into an essay.
Do NOT fill the canvas fully; always keep meaningful whitespace.
Do NOT output long paragraphs.

TASK

Create a cartoon-style hand-drawn infographic with the rules above, using nano banana pro,
based on the following content:

{{USER_INPUT}}

用到的 skills 或者 mcp 如下:


📌 转载信息
原作者:
wenliang_zeng
转载时间:
2025/12/25 17:37:37

好像活动出来有几天了,不久前才看到宝塔在 b 站发视频。领取条件为学生且年龄不超过 24 岁,不允许用于商业项目。每次可以领取一个月,每月验证使用状态免费续费;也可以创作使用宝塔的技术文章或视频,一次性获得六个月的宝塔专业版。
活动详情见 https://mp.weixin.qq.com/s/fUkTQEiwr6pWQ8MWpvRYUQ


📌 转载信息
原作者:
wanan7
转载时间:
2025/12/25 17:36:16

最近在折腾 “验收自动化” 时一个反复踩的坑:

  • UI 改一点点,locator 就碎,维护成本越来越高
  • 用例脚本对 PM/QA 不友好,最后还是开发在写
  • 失败排查要截图 /trace/log 到处拼,效率很低

所以做了个小工具:AutoQA-Agent(开源 CLI)。核心思路是 Docs-as-Tests(文档即测试)

  • Markdown 写用例(Preconditions + Steps)
  • Claude Agent SDK 做 “观察 → 思考 → 行动” 的执行闭环
  • 底层用 Playwright 真实驱动浏览器
  • 失败不直接崩:把错误 / 上下文回流给 agent,按护栏重试(自愈)
  • spec 跑通后:会把动作沉淀成 IR,并可 自动导出 @playwright/test 用例(可接 CI)


TL;DR

  • 写:specs/*.md
  • 跑:autoqa run <spec-or-dir> --url <baseUrl>
  • 看产物:.autoqa/runs/<runId>/(log/screenshot/snapshot/trace)
  • 跑通可导出:tests/autoqa/*.spec.ts


快速上手

git clone https://github.com/terryso/AutoQA-Agent.git
cd AutoQA-Agent
npm install
npm run build
npm link # 可选,全局使用 autoqa

autoqa init

# 跑一个示例(仓库里有 SauceDemo 用例)
autoqa run specs/saucedemo-01-login.md --url https://www.saucedemo.com/

# 本地观察执行过程
autoqa run specs/saucedemo-01-login.md --url https://www.saucedemo.com/ --debug


Markdown 用例长啥样(示例)

# Login ## Preconditions - 测试账号已存在

## Steps 1. 访问 /login 页面
2. 验证登录表单可见
3. 在用户名输入框中填写:standard_user
4. 在密码输入框中填写:secret_
sauce 5. 点击"登录"按钮 6. 验证用户已跳转到仪表盘

说明:

  • Base URL 目前由 --url 提供(Preconditions 里的 Base URL 只做可读性)
  • Verify/Assert(也支持 “验证 / 断言”)开头的步骤会识别为断言


稳定性思路(简单说)

  • 每次交互前先拿 accessibility snapshot(里面会有更稳定的 ref
  • ref-first 优先点 / 填,失败再回退到语义描述
  • 工具 / 断言失败不 throw:返回结构化错误,让 agent 下一轮调整策略
  • 有护栏限制(避免无限重试 / 成本失控)


失败排查 / 产物(我自己最想要的部分)

每次运行会落盘:

.autoqa/runs/<runId>/
├── run.log.jsonl
├── ir.jsonl
├── screenshots/
├── snapshots/
└── traces/


目前状态

  • Epic 1-4 核心能力已实现:init/run、断言 + 自愈护栏、IR 记录、导出 Playwright Test
  • Epic 5(环境 / 变量 / 敏感数据注入)也已落地(.env + 模板变量思路)


想听听大家的反馈(求喷 / 求建议)

我比较关心的问题:

  • 你们更想要哪种导出风格?(更 “人写” 的 Playwright 代码还是更原子化的 steps)
  • 断言映射要做到什么程度才 “够用”?
  • 对 CI 产物你们更偏好 JUnit/JSON 还是保留 trace + log 就够了?

Repo:https://github.com/terryso/AutoQA-Agent

欢迎提 Issue / PR。


📌 转载信息
转载时间:
2025/12/25 17:35:32

Claude Code 在会话开始时会提前加载所有工具定义,这会消耗大量上下文 token - 特别是对于配置了多个 MCP 服务器、插件和代理的用户。Anthropic 已发布专门为此设计的测试功能:工具搜索工具和程序化工具调用。

相关文档请查看:https://www.anthropic.com/engineering/advanced-tool-use

通过搜索 GitHub - anthropics/claude-code: Claude Code is an agentic coding tool that lives in your terminal, understands your codebase, and helps you code faster by executing routine tasks, explaining complex code, and handling git workflows - all through natural language commands. 发现使用

export ENABLE_TOOL_SEARCH=1

可以体验这个功能
未使用 ENABLE_TOOL_SEARCH=1 时,上下文占用


Free space 有 47.5% 可用
使用 export ENABLE_TOOL_SEARCH=1 后


Free space 有 64.5% 可用
正常使用 cc 处理问题后,再看占用情况


只加载了 4 个工具,没有使用到的工具和 mcp 不会加载,极大了减少了下文的占用
测试使用的版本信息
claude --version
2.0.76 (Claude Code)


📌 转载信息
转载时间:
2025/12/25 15:14:39

Train Sim World 6: Spirit of Steam: Liverpool Lime Street - Crewe Route 中,回到过去,感受蒸汽时代的滚滚浓烟和声音;登上那些需要 “吃掉” 大量煤和水的标志性逼真机车,在历史悠久的默西赛德郡和柴郡努力提供繁忙的客运和货运服务!

探索浪漫蒸汽時代的煤煙與喧囂

官方获取地址:

Steam 版:在 Steam 上购买 Train Sim World® 6: Spirit of Steam: Liverpool Lime Street - Crewe Route Add-On 立省 100%

Epic 版:https://store.epicgames.com/p/train-sim-world-6--spirit-of-steam-liverpool-lime-street-crewe

Xbox 版:Get Train Sim World® 6: Spirit of Steam: Liverpool Lime Street - Crewe | Xbox

PS 版:Train Sim World® 6: Spirit of Steam: Liverpool Lime Street - Crewe

感觉不错就支持我一下


📌 转载信息
原作者:
cybermay
转载时间:
2025/12/25 13:40:45