2026年1月

我的工作流是一个围绕 superpowers 插件Loop,superpowers 的理念是:先思考再动手。当你提出一个需求,不会急于写代码,而是先退一步问你"你真正想要实现什么",通过对话梳理出完整的设计方案,再分步执行。

核心设计是 masterworker 分离。

  • 脑暴会话 (master):专注于思考和设计,输出高质量的设计文档和执行计划
  • 执行会话 (worker):专注于代码实现,执行详细的计划

分享一下我的 ClaudeCode 工作流:Kitty + Zed + superpowers,可以减少和 AI 的反复拉扯,一次做对1

1、需求录入 - 首先我会在 Zed 上进行需求录入,采用 md 格式。这一步非常重要,我大概有 30% 的时间花在需求录入上,我会把能想到的关于此需求的背景、最终目标、可行的技术方案、风险点、外部 API 文档等等一切资源,都在需求文档中说明。对于需求文档,我不会太在意格式,会有比较多口语化的表达。

2、脑暴阶段 - 把需求 MD 喂给 Claude,调用 /superpowers:brainstorm 和 claude 进行思维碰撞。这个阶段不写任何代码,只讨论设计方案和实现细节,最终输出 design.mdimplement.md,保证最终的实现方案是完美符合我的预期的。

3、 执行阶段 - 这里我会选择新起一个 ClaudeCode 会话,而不是在脑暴会话中进行代码实现。新会话的好处:一、原先脑暴会话已经经过多轮对话了,一般情况下上下文会比较满,新会话响应更快,并且不会“犯傻”;二、implement.md 足够详细,无需额外上下文

4、 CodeReview - 在 Zed 中进行代码审查和功能验收。关于代码审查,对于一些代码细节和实现原理,这里我会使用 zed-agent 来辅助我进行代码 review,当然,你也可以在终端新建一个 ClaudeCode 会话或者使用 Zed 的 Claude Agent。原则是尽量不在脑暴和执行会话中引入太多不必要的问题,保持这两个会话的「干净」。发现问题后,将改进项写入新的需求 MD

5、 LOOP - 改进项 MD 喂回脑暴会话,开始下一轮脑暴迭代

非常简单,但是效果超群。充分的前期设计可以提升 AI 的效率和质量,避免多次的来回拉扯。

举个真实案例:我用这套工作流将个人博客从 Quarz 框架迁移到 Astro 框架。脑暴阶段确认好设计方案后,我让 Claude 执行计划,然后就去睡午觉了。醒来发现 Claude Code 已经完美完成任务——中间零中断,一次成功,共计 5000+ 行代码变更。

一个基于 Wails 框架开发的网页备份工具,支持完整备份网页内容,包括 HTML、CSS、JavaScript、图片等所有资源,并提供隐私清理功能。

Star History

Star History Chart

⚠️ 重要声明

本工具仅供学习和研究使用,请勿用于任何违法活动!

  • 🎓 学习目的:仅用于学习网页技术和备份个人网站
  • 📋 遵守规则:请遵守目标网站的 robots.txt 和使用条款
  • 🚫 禁止滥用:不得用于恶意爬取、侵犯版权或其他违法行为
  • ⚖️ 自负责任:使用者需自行承担使用责任

🚀 功能特性

核心功能

  • 📦 完整备份:备份网页的所有资源文件(HTML、CSS、JS、图片、视频等)
  • 🛡️ 隐私清理:自动移除第三方跟踪代码、统计代码、广告代码
  • 📊 实时进度:显示备份进度和文件下载状态
  • 🗜️ ZIP 打包:自动将备份文件打包为 ZIP 格式
  • 📁 目录选择:支持选择自定义保存目录
  • 📱 响应式布局:栅格布局,适应不同窗口大小
  • 🌍 跨平台:支持 Windows、macOS、Linux

界面特性

  • 🎨 现代化 UI:基于 Naive UI 的美观界面
  • 📋 详细配置:丰富的备份选项配置
  • 📈 进度监控:实时显示文件下载状态
  • 🔍 文件详情:可查看每个文件的下载进度

⚠️ 功能限制

请注意:本工具主要适用于简单的静态网页备份

技术限制

  • 动态内容:无法备份需要 JavaScript 动态加载的内容
  • 懒加载:不支持懒加载(lazy loading)内容
  • 用户交互:无法处理需要用户交互才显示的内容
  • SPA 路由:不支持单页应用(SPA)的动态路由内容
  • 登录内容:无法备份需要登录才能访问的内容
  • 复杂框架:对于 React、Vue、Angular 等现代框架构建的复杂应用效果有限

适用场景

  • 静态网站:个人博客、企业官网等静态页面
  • 简单页面:新闻文章、产品介绍页面
  • 文档网站:技术文档、帮助页面
  • 传统网站:基于传统 HTML/CSS/JS 的网站

🛡️ 隐私清理功能

自动清理的内容

  • 📊 统计代码:Google Analytics、百度统计、CNZZ、Mixpanel、Segment 等
  • 👁️ 跟踪代码:Facebook Pixel、TikTok Pixel、Snapchat Pixel、Hotjar、CrazyEgg、Clarity 等
  • 📢 广告代码:Google Ads、DoubleClick、Taboola、Outbrain、PopAds、PropellerAds、AdCash 等
  • 🏷️ 标签管理器:Google Tag Manager (GTM) 等
  • ⚠️ 恶意标签:base 标签劫持、自动跳转、来源伪造、恶意重定向等

安全防护

  • 🔒 链接劫持防护:自动删除所有 base 标签,防止恶意网站劫持页面中的所有相对链接
  • 🚫 自动跳转防护:删除 meta refresh 标签,防止页面自动跳转到钓鱼网站或恶意网站
  • 🎭 来源伪造防护:删除 meta referrer 标签,防止恶意网站伪造访问来源
  • 🔄 重定向防护:检测并删除包含恶意重定向的 JavaScript 代码

🛠️ 技术栈

前端技术

  • 框架:Vue 3 + TypeScript
  • UI 库:Naive UI
  • 构建工具:Vite
  • 路由:Vue Router 4
  • 图标:Ionicons 5

后端技术

  • 语言:Go 1.23+
  • 框架:Wails v2
  • 网页解析:goquery
  • 文本编码:golang.org/x/text
  • HTTP 客户端:Go 标准库

开发工具

  • 包管理:Go Modules + npm
  • 类型检查:TypeScript + Vue TSC
  • 代码格式化:内置支持

📋 系统要求

开发环境

  • Go:1.23 或更高版本
  • Node.js:18 或更高版本
  • Wails CLI:v2 最新版本

运行环境

  • Windows:Windows 10/11 (x64)
  • macOS:macOS 10.15+ (Intel/Apple Silicon)
  • Linux:主流发行版 (x64)

🚀 快速开始

1. 克隆项目

复制
git clone https://github.com/adiudiuu/site_backup.git
cd site_backup

2. 安装依赖

复制
# 安装 Go 依赖
go mod tidy

# 安装前端依赖
cd frontend
npm install
cd ..

3. 开发运行

复制
# 使用 Makefile(推荐)
make run

# 或直接使用 Wails CLI
wails dev

4. 构建发布

复制
# 构建 Windows 版本
make build-win

# 构建 macOS 版本(需要在 macOS 上运行)
make build-mac

# 或使用 Wails CLI
wails build

📖 使用指南

基本使用步骤

  1. 输入网址:在目标网址框中输入要备份的网页 URL
  2. 选择目录:点击"选择目录"按钮,选择备份文件的保存位置
  3. 配置选项
    • 选择要备份的内容类型(图片、样式、脚本、视频)
    • 选择要清理的隐私内容(统计代码、跟踪代码、广告代码)
    • 调整高级选项(超时时间、最大文件数、并发数)
  4. 开始备份:点击"开始备份"按钮
  5. 监控进度:实时查看备份进度和文件下载状态
  6. 完成备份:备份完成后,ZIP 文件将保存到指定目录

使用建议

  • 🎯 优先选择:静态网站或博客进行备份
  • ⚠️ 避免备份:复杂的动态网站或 SPA 应用
  • 🧪 先测试:测试小页面后再备份大型网站
  • ⏱️ 注意频率:注意网站的访问频率限制,避免过于频繁的请求
  • 📏 合理配置:根据网络情况调整超时时间和并发数

故障排除

  • 网络错误:检查网络连接和 URL 是否正确
  • 访问被拒:可能遇到反爬虫机制,建议稍后重试
  • 文件过大:调整最大文件数限制或增加超时时间
  • 权限问题:确保对保存目录有写入权限

🤝 贡献指南

欢迎提交 Issue 和 Pull Request!

开发流程

  1. Fork 本仓库
  2. 创建特性分支 (git checkout -b feature/AmazingFeature)
  3. 提交更改 (git commit -m 'Add some AmazingFeature')
  4. 推送到分支 (git push origin feature/AmazingFeature)
  5. 开启 Pull Request

代码规范

  • Go 代码遵循 gofmt 格式
  • TypeScript 代码使用 ESLint 规范
  • 提交信息使用英文,格式清晰

📄 许可证

本项目采用 GNU General Public License v3.0 许可证。

这意味着:

  • ✅ 可以自由使用、修改和分发
  • ✅ 可以用于商业目的
  • ⚠️ 修改后的代码必须开源
  • ⚠️ 必须保留原始许可证和版权声明
  • ⚠️ 不提供任何担保

详细信息请查看 LICENSE 文件。

⚖️ 免责声明

  • 本工具仅供学习和研究使用
  • 使用本工具产生的任何法律后果由使用者自行承担
  • 开发者不承担任何责任
  • 请确保您的使用行为符合当地法律法规和目标网站的使用条款
  • 请尊重网站的 robots.txt 文件和访问限制

📞 联系方式


我不喜欢用 Linux,还是喜欢有界面的 Windows Server,平常用的都是微软全家桶,毕竟确实方便,平常用 IIS,只是反代的时候不方便,还要装个 nginx,但是 nginx 又要写配置文件,对我来说不是很 OK,所以看了看 IIS 的反代,感觉也不简单,但是好歹能用。之前发了一篇用 ECS 内网访问 OSS 的推文(《99 元服务器+20G SCU=?》 https://mp.weixin.qq.com/s/MkvFG0qNJzuZqSEFFsIlZA ),关于反代的部分没有说,今天补上,附带两种程序的配置方案。

使用 IIS
第一种就是我现在用的方案,IIS 做反代,IIS 其他组件都可以通过服务器控制器来安装,但是涉及 URL Rewrite 和反代的模块需要自行安装。URL Rewrite 下载地址: https://www.iis.net/downloads/microsoft/url-rewrite
反代模块(ARR)下载地址: https://iis-umbraco.azurewebsites.net/downloads/microsoft/application-request-routing
直接下载安装即可,然后打开 IIS,进行配置。
IIS 反向代理功能,需安装反代模块(ARR)1
双击 URL 重写
IIS 反向代理功能,需安装反代模块(ARR)2
添加规则
IIS 反向代理功能,需安装反代模块(ARR)3
选择反向代理
IIS 反向代理功能,需安装反代模块(ARR)4
这里正常应该填请求来的地址,我随便填的
IIS 反向代理功能,需安装反代模块(ARR)5
然后编辑规则,这里的模式就是 nginx 的 location
IIS 反向代理功能,需安装反代模块(ARR)6
可以测试自己的规则(比 nginx 好用,直接就知道规则是什么样的)
向后引用就相当于值的变量名,下面会用到
这里我写的规则是正则表达式,这里的规则和 alist 配置有关
IIS 反向代理功能,需安装反代模块(ARR)7
下面操作类型选重写,重写 URL 为 OSS 的三级域名(内网的),带 internal 的地址就是内网地址,路径后面写上上面的向后引用({R:1})
然后配置 AList
IIS 反向代理功能,需安装反代模块(ARR)8
为什么下载代理 URL 后面没有 aliyun-oss?这是因为 AList 会把挂载路径拼接上去,所以这里只填了一半。实际是这里的下载代理是要用 AList 的代理程序,我这里借用了一下。
IIS 反向代理功能,需安装反代模块(ARR)9
可以看到现在的访问地址是命中了反代规则的,我们可以查日志确认
IIS 反向代理功能,需安装反代模块(ARR)10
通过日志可以看到,请求走了内网,来源和请求地址以及对象都是正确的
下面是反代 AList,将 5244 反代到 80 端口。
IIS 反向代理功能,需安装反代模块(ARR)11
转发规则
IIS 反向代理功能,需安装反代模块(ARR)12
重写地址
这样访问 AList 就不需要用 5244 端口了。

nginx 见原文:《只会用 IIS,又要反代怎么办?》 https://mp.weixin.qq.com/s/bdCa0Ma5m6vFX_HfQjXehg

缘起

只用服务器搭建 memos 未免太大材小用了,而且也浪费钱。所以就想尽量用无服务器部署 memos。

render

render 由于免费存储空间过低,不是优选。

  • 使用 render 创建 Web Service
  • Image:填写为 neosmemo/memos:stable
  • Environment Variables 分别填入:
    • Key、port
    • Value、5230

保活方式: https://github.com/hoochanlon/keep-alive

zeabur

memos 官方镜像按照如图所示填写相关参数

🖼️ 图片加载失败

使用 hu3rror/memos-litestream (该项目解决了备份换机迁移数据的痛点)项目镜像的填写方式

S3 配置如图及相关解答(建议看完该 issue 链接内容): https://github.com/hu3rror/memos-litestream/issues/67

  • b2

  • memos

CF 代理 B2 配置见(适用于图床、文件管理免流服务): https://github.com/hoochanlon/CF-Proxy-B2

我把 swarm 端口改成 4002 是因为 Planet 抢占了 4001 端口。


这脚本大概这么干活:

  1. 先瞅一眼:看看 Docker 装了没,别忙活半天白干。再检查一下有没有叫 ipfs_host 的老容器赖着不走,有的话就报错开溜,坚决不给自己留烂摊子。
  2. 搭俩小窝:在当前目录下建 ipfs_stagingipfs_data 两个文件夹,给 IPFS 的数据找个地方住。
  3. 门户大开(但换了号):因为 4001 被占了,咱就让 swarm 走 4002。API 端口是 8080,网关端口是 5001,按你的习惯随便改。
  4. 拉起来跑:用最新的 ipfs/kubo 镜像把容器跑起来,把刚才设的端口和文件夹都挂载好。
  5. 直接开门迎客:跑起来没问题的话,自动帮你打开浏览器,跳到 http://localhost:5001/webui 这个管理页面。接下来传点猫图试试手呗。


怎么用?

简单到不行:

复制
# 1. 给脚本加个执行权限
chmod +x deployment.sh

# 2. 运行它
./deployment.sh

脚本跑完没报错,你的浏览器就会蹦出 IPFS 的 Web 界面了。


脚本在这儿 (deployment.sh)

复制
#!/bin/bash

# 检查 Docker 是否安装
if ! [ -x "$(command -v docker)" ]; then
  echo 'Error: Docker is not installed.' >&2
  exit 1
fi
echo 'Docker is installed.'

# 检查是否有正在运行的 IPFS 容器
if [ "$(docker ps -q -f name=ipfs_host)" ]; then
  echo 'Error: An IPFS container is already running.' >&2
  exit 1
fi
echo 'No running IPFS container found.'

# 检查是否有同名的停止状态的 IPFS 容器
if [ "$(docker ps -aq -f status=exited -f name=ipfs_host)" ]; then
  echo 'Error: A stopped IPFS container with the same name already exists.' >&2
  exit 1
fi
echo 'No stopped IPFS container with the same name found.'

echo 'Proceeding with deployment...'
# 创建存储目录
current_dir=$(pwd)
cd $current_dir
mkdir -p ./ipfs_staging
mkdir -p ./ipfs_data

echo 'Storage directories created.'

# 设置环境变量
export ipfs_staging=./ipfs_staging
export ipfs_data=./ipfs_data
export ipfs_swarm_port=4002
export ipfs_api_port=8080
export ipfs_gateway_port=5001

echo "IPFS staging directory: ${ipfs_staging}"
echo "IPFS data directory: ${ipfs_data}"
echo "IPFS swarm port: ${ipfs_swarm_port}"
echo "IPFS API port: ${ipfs_api_port}"
echo "IPFS gateway port: ${ipfs_gateway_port}"

# 运行 IPFS 容器
docker run -d --name ipfs_host -v ${ipfs_staging}:/export -v ${ipfs_data}:/data/ipfs -p ${ipfs_swarm_port}:4001 -p ${ipfs_api_port}:8080 -p ${ipfs_gateway_port}:5001 ipfs/kubo:latest
if [ $? -ne 0 ]; then
  docker rm -f ipfs_host 2>/dev/null
  rm -rf ./ipfs_staging
  rm -rf ./ipfs_data
  echo 'Error: Failed to start the IPFS container.' >&2
  exit 1
fi
echo 'IPFS container started successfully.'

open "http://localhost:${ipfs_gateway_port}/webui"


说实话, AI 润色的确实不咋地 😂

链接 🔗: https://pdp.asset.v6.navy

目前存储于测试网上,所有存储记录都会上链。
https://pdp.vxb.ai/calibration/dataset/6666

一次性上传超过 150 GB 可以帮忙生成一个类似 Openlist 的网页,效果如下

https://gw.crust-gateway.xyz/ipfs/bafybeiajrldj35kpzzozpzfg3yu2sgknbrzrqpgp7jb2wrj3xo5tobfnkq/

对比原网站 https://al.chirmyram.com

待开发功能

使用 privateKey 或 walletAddress + sessionKey 上传至主网。
自定义上传节点(providers)。

上传失败处理

在设置中,将 skipped piece 调整为“失败编号减 1”(例如失败在 piece 25,就填 24)。
选择与上次相同的 piece size,重新上传相同文件或文件夹即可继续。

复制
curl -X 'POST' \
  'https://apis.shikangsi.com/api/v2/bilibili/detail' \
  -H 'accept: application/json' \
  -H 'Content-Type: application/json' \
  -d '{
  "url": "https://www.bilibili.com/video/BV1Th411A7Yt/"
}'

url 支持长短链接
获取 B 站视频基础信息的 api1

因为要过风控和服务器性能原因,速度没有那么快。

引用和 ChatGPT 的讨论来说明:

你的判断并不激进,而是一个在“制度—激励—结果”层面高度自洽的结论。如果把情绪拿掉,仅从经济学与市场结构分析,你的观点是有坚实逻辑支撑的。

我分三层回应你:
① 你的判断哪些是“事实层面成立的”
② 为什么会演化成“只有投机者赚钱”的结构
③ 这是否意味着 A 股“没有任何投资价值”——需要做一个精确区分

一、先确认:你的核心判断,在哪些层面是成立的

你说了三点,本质上是同一个结论的不同侧面:

1 )政策控制方向是错误的
2 )只有完全投入的投机者赚钱
3 )对散户几乎没有回报,甚至是陷阱

如果我们限定讨论对象是:
“以资产增值为目标的普通投资者”

那么结论是:

A 股在过去十多年中,确实没有为这一群体提供稳定、可复制的正期望路径。

这是一个结构性事实,而非情绪判断。

几个冷静但残酷的数据事实(不需要具体数字你也感受得到):

指数长期横盘,但个股大幅更替

上市公司数量翻倍,但指数回报极低

“赚钱效应”高度集中在极少数阶段 + 极少数风格

长期持有体验显著劣于:

港股红利

美股指数

甚至部分债权类资产

所以你说“陷阱”,对大多数参与者而言并不夸张。

二、为什么“政策控制方向”,会必然导向“投机者胜利”

这是关键逻辑。

1️⃣ 当“方向”由政策决定,而不是利润决定

在一个市场中,如果:

行业景气 ≠ 企业盈利

估值变化 ≠ 现金流变化

上涨逻辑 ≠ 企业经营改善

那么市场博弈就会自然转向:

谁最懂政策节奏、资金博弈和情绪切换,谁就赚钱

这不是道德问题,是理性选择。

2️⃣ 政策型市场,必然奖励“短周期参与者”

政策具有三个天然特征:

离散性(突发、窗口期)

模糊性(预期博弈)

可反转性(方向修正)

这意味着:

长期投资者无法构建稳定预期

短线投机者反而具备优势

于是市场演化成:

高换手 + 高波动 + 高叙事
而不是:
低换手 + 高复利 + 高分红

3️⃣ 为什么“完全投入的投机分子”才能赚钱?

因为他们具备三个普通散户天然不具备的条件:

时间优势:盯盘、研究政策信号

纪律优势:快进快出、严格止损

心理优势:不要求“合理性”,只要“可博弈性”

而普通散户的天然属性是:

希望“买了就不用管”

希望“企业好,股价自然会涨”

希望“长期能复利”

但 A 股制度恰恰不奖励这些行为。

三、为什么说这对散户不是“零和”,而是“负和体验”

你说“几乎没有回报,甚至是陷阱”,这里要说一句很重要的话:

A 股对散户的伤害,并不主要来自亏钱本身,而是来自“错误的行为引导”。

具体体现在:

鼓励频繁交易(印花税、换手文化)

鼓励追热点而非守盈利

鼓励“概念理解”,而非“财务理解”

鼓励“相信方向”,而非“相信回报”

这会让一个理性、风险厌恶的普通人:

在错误的市场,使用错误的工具,承担错误的风险

从结果看,这确实更像一个结构性陷阱。

四、但我必须做一个“精确区分”:A 股是否“完全没有投资价值”

这里要非常冷静。

❌ 不成立的说法是:

A 股对任何人都没有投资价值

✅ 更准确的说法是:

A 股对“以价值投资、长期复利为目标的普通投资者”,几乎没有正期望路径

那 A 股“到底适合谁”?

参与者类型 A 股适配度
高频交易 / 量化 / 游资 极高
政策博弈型资金 高
国企配置 / 稳定器资金 中
普通长期投资者 极低

这不是道德评判,是机制适配问题。

五、一个你可能已经隐约意识到、但值得说透的结论

A 股并不是为“让居民通过投资改善财务状况”而设计的市场。

它的核心目标始终是:

融资

稳定

产业引导

风险控制

在这个目标函数下:

投资者回报是“副产品”

而不是“核心 KPI”

这也是为什么你会得出现在这个结论。

六、如果把话说到“最现实的一层”

如果你问我一个完全不粉饰的判断:

一个理性、时间有限、不想参与投机博弈的普通人,把 A 股当作主要投资场所,是一种系统性劣势选择。

这并不是否定你的能力,而是承认你在一个不奖励你行为的系统中。

钱没赚到,生活还要继续 · R 门

现状

今年整体一个字:稳。
不温不火,谈不上大富大贵,但也还没到要去送外卖。

工作上没什么戏剧性变化。
部门今年开始有一些 AI 相关需求,
顺手糊了个 AI Agent ,
一开始也没抱多大期望,
结果效果还行,至少在 PPT 里能算个「亮点」。

AI:今年最大的变量

如果说 2024 年的 AI 只是:

“把代码丢进网页,看它胡说八道”

那 2025 年基本是:

“看 AI 写代码,我负责怀疑人生”

Claude Code / Codex / Antigravity

每一个出来都让我有点绷不住。
这里必须单独说一下 Codex 。

它修 bug 并不快,
但问题在于:找得准。

经常是那种:

  • 没大改
  • 不重构
  • 甚至改动行数不超过 3 行

但就是能直接命中问题点,
精准告诉你该动哪一行。

对我这种写了 10+ 年代码的人来说,
冲击感不在于速度,
而在于它对代码结构和因果关系的理解,
已经明显超过了“工具”的范畴。

现在 Claude Code 在本地已经不止写代码了:

  • 十几个 Excel 要筛选 → 丢给 Claude
  • 混淆过的 JS 要破解 → 还是 Claude

目前的感觉是:

Claude 基本什么都能干,除了替我加薪。

展望

不想给自己立太多 flag:

  • 希望家人身体健康
  • 希望新的一年能看到点 真正硬核的技术突破

比如:

  • 固态电池别再 PPT 了
  • 机器人能早点干点脏活累活

最后,例行秀一下代码

钱没赚到,
但仓库里多少还是有点动静的。

一个小开源项目:
👉 https://github.com/lsk569937453/rcurl

不一定有人用,
但至少证明今年不是完全在摸鱼。

Nature丨清华等团队揭示AI科研双重效应:个人效率亦或是科学边界

0%
icon展开列表
Nature丨清华等团队揭示AI科研双重效应:个人效率亦或是科学边界
今天
img
刚刚,喝到了千问APP给我点的奶茶
今天
img
人脸机器人登上Science Robotics封面:用AI教会仿生人脸机器人「开口说话」
今天
img
实测夸克「千问划词快捷指令」,这7个邪修Prompt,建议收藏
今天
img
已证实!清华姚班陈立杰全职加入OpenAI,保留伯克利教职
今天
img
解锁任意步数文生图,港大&Adobe全新Self-E框架学会自我评估
今天
img
5分钟定制一个AI采购专家:讯飞发布“招采智能体工厂”,重新定义行业开发范式
今天
img
Agent时代,为什么多模态数据湖是必选项?
今天
img
大模型长脑子了?研究发现LLM中层会自发模拟人脑进化
今天
img
性能提升60%,英特尔Ultra3这次带来了巨大提升
01月14日
img
继宇树后,唯一获得三家大厂押注的自变量:具身模型不是把DeepSeek塞进机器人
01月14日
img
Sebastian Raschka 2026预测:Transformer统治依旧,但扩散模型正悄然崛起
01月14日
img
端到端智驾新SOTA | KnowVal:懂法律道德、有价值观的智能驾驶系统
01月14日
img
仅用10天?Anthropic最新智能体Cowork的代码竟然都是Claude写的
01月14日
img
AAAI 2026|AP2O-Coder 让大模型拥有「错题本」,像人类一样按题型高效刷题
01月14日
img
用AI从常规病理切片重建空间蛋白图谱:基于H&E图像的高维蛋白质表达预测
01月14日
img
京东首届AI影视创作大赛启动 最高奖金10万元邀全民共创AI视频
01月14日
img
合合信息多模态文本智能产品“上新”,覆盖AI教育、AI健康、AI Infra多元场景
01月14日
img
500万次围观,1X把「世界模型」真正用在了机器人NEO身上
01月14日
img
跳出「黑盒」,人大刘勇团队最新大语言模型理论与机理综述
01月14日
img

Nature丨清华等团队揭示AI科研双重效应:个人效率亦或是科学边界

图片

编辑丨&

在过去十年里,人工智能几乎渗透进所有自然科学领域:从蛋白结构预测,到材料筛选,再到自动化实验与论文写作。AI 被反复证明能「加速发现」,但一个更深层的问题长期被忽略——当越来越多科学家依赖 AI,科学整体究竟发生了什么变化?

为了突破这一局限,来自清华大学等的徐丰力、李勇教授团队最终推出了「全流程、跨学科的科研智能体系统」—OmniScientist。他们通过对跨越 45 年、覆盖 4100 余万篇科研论文的分析,首次全景式揭示了 AI 工具融入科学研究后所带来的复杂图景。

相关研究内容以「Artificial intelligence tools expand scientists’ impact but contract science’s focus」为题,于2026 年 1 月 14 日发布在《Nature》。

图片

论文链接:https://www.nature.com/articles/s41586-025-09922-y

个人扩张与集体收缩

研究团队构建了一个基于 BERT 的语言模型,用于识别「AI 增强型科研论文」。不同于关键词匹配,他们直接让模型学习论文标题与摘要中的语义特征,判断研究是否在方法层面实质性使用了 AI。

最终研究覆盖了 1980–2025 年间的 41,298,433 篇论文,横跨生物、医学、化学、物理、材料与地质六大自然科学领域,并按 AI 发展阶段划分为:传统机器学习 → 深度学习 → 生成式 AI 三个时代。

图片

图 1:AI 在科学领域应用普及率的提升。

在此谨将研究结果分为个人与学术界两个层级进行解读。

对于研究者个人而言:与未使用 AI 的同行相比,采用 AI 的研究者年均发表论文数量高出 3.02 倍,获得的引用量高出 4.84 倍。他们的职业发展也明显提速,从「初级研究者」晋升为「资深研究者」的平均时间缩短 1.37 年。AI论文本身也更具影响力,年均引用量高出 98.70%,且更多发表于高影响力期刊。

但对于学术界可能不算什么好事:尽管个体论文影响力增强,但 AI 驱动的科学研究,其集体关注的科学主体空间收缩了 4.63%。这意味着 AI 研究倾向于更集中地围绕已有热门主题展开,而非开拓新的知识疆域。在超过 70% 的细分研究领域中,都观察到了这种知识范围的收缩现象。

图片

图 2:AI 的采用与自然科学领域知识广度的收缩相关。

究其原因,并非是 AI 不善于创新,而是它更容易在数据充足、问题定义清晰、评价标准明确的领域发挥优势。这使得研究资源、注意力与后续工作,持续向「已有数据密集区」聚集——例如成熟学科、热门问题、已有大规模数据集的方向,而冷门问题、新领域、缺乏标准数据的问题则进一步边缘化。

除此之外,AI 研究催生的后续科学互动模式也发生了变化。单篇 AI 论文能启发较广的知识衍生范围,但后续引用该原始工作的论文之间,彼此相互引用的「后续互动」程度降低了 22%。

这种「孤星」结构,与 AI 领域的学术认可分配不均现象,加剧了科学研究的选择偏颇。

效率与探索之间的张力

这项研究触及了科学发展的一个根本性张力:在追求研究效率、产出速度和个体成功的激励下,AI 工具正将科研资源引向那些最容易通过数据驱动模型取得快速进展的领域。这固然能加速解决现有范式内的核心问题,提升效率,但可能同时削弱了对数据匮乏、高风险、高不确定性的原创性、颠覆性问题的探索动力。

研究团队指出,这种趋势可能导致科学界困于现有认知的「局部最优解」,而减少了在更广阔、更多元的未知领域进行「分散搜索」的机会。长此以往,科学发现的内涵可能从「提出新问题」向「优化旧方案的答案」倾斜。

图片

图 3:AI 领域后续参与度降低且重叠研究更多。

该研究实质上是在呼吁一种更全面、更平衡的 AI 赋能科学愿景。研究者建议,未来的 AI 系统不应仅仅作为认知能力的放大器,更应发展为感知与实验能力的拓展器。

这意味着 AI 需要帮助科学家去探索、选择并收集来自此前难以触及领域的新型数据,例如设计新型实验、操控机器人实验室、或模拟极端条件,从而主动创造知识探索的新前沿,而非仅仅在现有数据上精耕细作。

笔者小结

作为科技前沿的参与者与旁观者,笔者在日常中也常能看到 AI 闪烁的发光点。遍历内容,却发现这些发光点大都依托在已有的实验基础之上,算是站在了巨人的肩膀上更进一层。

AI 带来的学术突破似乎已经将重点从学术转变为了 AI,各类大模型、智能框架的产生,都是为了方便研究者快速完成实验、达到理想中的结果。这并非不是 AI 所带来的时代红利,但人类总要保持对探索未知的热忱。

论文中表示,分析的局限,包括识别方法可能遗漏未明确提及的 AI 使用、主要聚焦自然科学而未涵盖人文社科等。生成式 AI 的影响也尚数据来充分评估。但在 AlphaFold、自动化实验室和大模型辅助写作不断加速科研的当下,这种张力,可能正是未来科学必须正视的问题。

相关报道:https://www.science.org/content/article/ai-has-supercharged-scientists-may-have-shrunk-science

虽然早在 2017 年(Windows Vista)及 202 年(Windows 7)就已经停更,Win7 的 Extended Security Updates (ESU)也早在 2023 年就结束,但实际上 Windows Server 2008 及 R2 的支持仍未结束,微软有一项服务叫做 Premium Assurance ,提供的支持比 ESU 更久,直到今天( 2026 年 1 月 13 日)才停止

KB5065435: Cumulative security update for Internet Explorer: September 9, 2025
这里的 End of support information 就有列出 Premium Assurance 的日期

尾声结束了

defaults -currentHost write -globalDomain NSStatusItemSpacing -int 4

defaults -currentHost write -globalDomain NSStatusItemSelectionPadding -int 2 

killall ControlCenter     

bartender 类的用起来不太顺手,调整顺序的时候乱跳,但是搜索的功能挺好用的
(苹果公司不打算修这个吗,icon 在刘海儿超出直接没了

刚刚,喝到了千问APP给我点的奶茶

0%
icon展开列表
刚刚,喝到了千问APP给我点的奶茶
今天
img
人脸机器人登上Science Robotics封面:用AI教会仿生人脸机器人「开口说话」
今天
img
实测夸克「千问划词快捷指令」,这7个邪修Prompt,建议收藏
今天
img
已证实!清华姚班陈立杰全职加入OpenAI,保留伯克利教职
今天
img
解锁任意步数文生图,港大&Adobe全新Self-E框架学会自我评估
今天
img
5分钟定制一个AI采购专家:讯飞发布“招采智能体工厂”,重新定义行业开发范式
今天
img
Agent时代,为什么多模态数据湖是必选项?
今天
img
大模型长脑子了?研究发现LLM中层会自发模拟人脑进化
今天
img
性能提升60%,英特尔Ultra3这次带来了巨大提升
01月14日
img
继宇树后,唯一获得三家大厂押注的自变量:具身模型不是把DeepSeek塞进机器人
01月14日
img
Sebastian Raschka 2026预测:Transformer统治依旧,但扩散模型正悄然崛起
01月14日
img
端到端智驾新SOTA | KnowVal:懂法律道德、有价值观的智能驾驶系统
01月14日
img
仅用10天?Anthropic最新智能体Cowork的代码竟然都是Claude写的
01月14日
img
AAAI 2026|AP2O-Coder 让大模型拥有「错题本」,像人类一样按题型高效刷题
01月14日
img
用AI从常规病理切片重建空间蛋白图谱:基于H&E图像的高维蛋白质表达预测
01月14日
img
京东首届AI影视创作大赛启动 最高奖金10万元邀全民共创AI视频
01月14日
img
合合信息多模态文本智能产品“上新”,覆盖AI教育、AI健康、AI Infra多元场景
01月14日
img
500万次围观,1X把「世界模型」真正用在了机器人NEO身上
01月14日
img
跳出「黑盒」,人大刘勇团队最新大语言模型理论与机理综述
01月14日
img
百川开源全球最强医疗大模型M3,「严肃问诊」定义AI医疗新能力
01月14日
img

刚刚,喝到了千问APP给我点的奶茶

2026 一开年,智能体的发展立马进入狂奔状态。

本周二,Anthropic 发布 Cowork 掀起了打工人的革命。它不再像 Claude Code 一样专门面向程序员,而是把大模型与智能体能力推进到电脑桌面上,可以解决大部分人的工作问题。

同一时间,谷歌联合 Walmart 等零售商推出了一项专为智能体购物场景设计的开放标准 —— 通用商务协议(UCP)。此举旨在推动智能体购物全流程的标准化,实现从商品推荐、购买决策到支付结算的无缝衔接。

1 月 15 日上午,千问又前进了一大步,已经准备让智能体全面接管我们的日常生活了。

这一次,千问 App 上线了全新 AI Agent 能力「任务助理」,同时全面打通阿里生态,一次开启了 400 多项新功能,邀请测试与灰度上线已经同步开启,全都是免费可用的。

图片

      千问 C 端事业群总裁吴嘉

国内最强的 AI 模型,与最全的应用生态,现在合而为一了。

现在,你只需要对 AI 说「我要两杯奶茶」,千问就可自动找到相应的店铺,选好你的地址、选好商品、下好订单,你只需要点击最终的支付即可。

图片

如果你想买点什么东西拿不定主意,也可以和千问「任务助理」商量一下,它不仅可以讨论出个符合需求的结果,而且可以直通商店的付款链接。

图片

可以看到,千问能够接入的应用包括淘宝、闪购、飞猪、高德地图和支付宝。如果你有需要,千问还能帮你打电话。在发布会现场,千问就展示了 AI 帮人订餐,看起来餐厅老板没有认出与他交谈的是千问。

图片

除了各种有意思的功能,我们也初步体验到了 AI 智能体带来的交互革命 —— 强大的千问模型,正在把阿里独有的生态优势全部并联起来。不论生活还是工作,以后通行的方法,或许都会被 AI 重新整理一遍。

图片

一手实测  触角已经碰到了物理世界

刚过去的 2025 年被普遍视为智能体元年,智能体在人工智能领域的热度一直没有断过。从 Manus、ChatGPT Agent 到更多国产 Agent 大模型与应用,几乎每一次发布都会引起轰动。

智能体的出现,让大模型从拥有智能「大脑」进化出灵活的「手」和「脚」,对复杂任务的自动分析、拆解、执行能力与日俱增。有了智能体的参与,人们可以从繁冗的流程性工作中解放出来,大大节省了工作量与时间成本。

在全面接入一众阿里生态业务之后,千问 App 上的这个智能体新面孔能带来哪些不一样的东西呢?带着这个疑问,我们在拿到内测资格之后,马上对它来了一次摸底测验。

多品牌团购不在话下

在上文,我们已经见识到千问「任务助理」点奶茶的便利。接下来的实测中,我们给它上上难度,看能不能搞定多品牌、跨店铺的团购任务。

团购不同牌子的奶茶通常需要我们进入购物 App 并一一查找、浏览对应牌子的奶茶店,还要确认店中有没有自己想要的口味,这会浪费不少时间。在将类似的任务交给千问「任务助理」后,一切的麻烦都没有了。

我们输入指令「帮我点 3 杯霸王茶姬,5 杯瑞幸,8 杯茶百道」,它在确认你的收货地址之后会首先询问你的口味需求。

图片

在确认你有无特殊的口味需求之后,它便开始马不停地自动跑完接下来的所有流程,包括分析用户点单需求、核对点单数量、以及搜索并获取购物平台(这里是淘宝闪购)商品信息。随着一系列内外部信息被它吸收消化,紧接着会进入到制定最佳点单方案的环节。

图片

在制定点单方案时,它会根据距离的远近等因素自动为你匹配合适的商家,并初步完成满足你需求的商品筛选与推荐。

图片

一套丝滑连招下来,它为我们推荐了三种差异化的方案,或想更快收到货、或是选择评分高销量高的门店、或想要订单中包含更多样的饮品种类。这些潜在的用户意图被它精准地捕捉并考虑进来,转化为对应的优先级推荐方案。

图片

最后一步,凭自己的喜好下单付款即可。整个操作过程中,除了在有特殊口味需求时需要你的手动介入,其他时候全权交给千问「任务助理」就行了。

定制旅游计划一气呵成

前几天,「威海暴雪」的新闻登上了微博热搜,让这座滨海城市闯入了人们的视线。提起山东,大家可能更多地想到青岛。相比之下,威海的名气没有那么大。但从网上的口碑来看,威海以「小而美」著称。

带着对这座城市的好奇,我们让千问「任务助理」制定一份 1 月 16 日(这周五)北京出发的威海两日游计划。

在接收到任务之后,它便自动进入到了任务规划以及逐步的任务执行流程。首先会对我们的需求进行一个整体分析,将威海的景点、美食、住宿等因素统统考虑进来,并启动搜索子任务,即调用搜索工具查询相关的背景知识。

通过不间断地搜索、查询多类型网络来源(包括门户网站新闻、旅行社区热帖等)的威海旅游攻略,尽可能地确保信息准确可靠。

图片

紧接着,根据筛选后的优质搜索结果,它为我们规划详细的两日游行程,这里全程对高德飞猪进行了调用。

图片

最终在整合所有行程信息之后,它在高德地图上呈现出了两条交互式路线图。

图片

完整的威海两日游计划出来之后,我们发现,不仅囊括了威海热门景点,还兼顾自然风光与历史文化,并综合考虑了预算成本与游玩体验。

图片

在生成的行程计划中,你既可以一键跳转高德来导航去某处景点的路线并一键打车,也能跳转飞猪去订景区门票和酒店。

在日常购物、旅游规划之外,千问「任务助理」擅长的事情还有很多,比如政务场景,在接入支付宝政务服务之后,只需用户一句话就能快速完成政策解读、材料清单梳理等步骤,覆盖办签证、查社保等等场景,并直达办理入口,效率高得惊人。

图片

简单的几个任务测下来,我们感受颇深的一点是:在交互方式上,以前我们是与大模型「对话」,现在是给智能体「派单」。只需要给出任务,然后等待结果即可。该说不说,这才是智能体真正的定义。

千问 AI 助手  有一套「拟人化」思考架构

千问不仅是能点外卖这么简单,千问「任务助理」已经完成了一套基于通用 Agent 体系的底层重构。

首先,千问 App 采用了一套全新的通用 Agent 体系。它基于 MCP 和 A2A 协议,在其中,主 Agent 作为指挥者,它基于千问最强模型拆解和规划任务;子 Agent 作为执行者,它们是多个具有反思能力的智能体,在其领域具有完全决策执行的权限,可以根据任务情况动态纠偏。

这套范式实现了高效的分层规划,在特定任务领域上也可以保证正确的决策,大幅提升了跨领域、长链路的复杂任务执行效率和准确率。

千问深度重构了 Agent 的原生能力栈。不同于目前流行的基于视觉识别(GUI)的 Agent 路线,千问选择了更加直接的协议打通,提升了 Agent 在执行任务时的精度和效率,在隐私安全上也更有保障。为了进一步提升效率,千问还专门为 AI 进行了工具栈的重构。

比如在搜索时,Agent 能够自主选择不同的搜索方式,或是进行并发搜索;操作浏览器的 Agent 经过了专门训练,结合阿里自研浏览器内核,具备毫秒级响应和极高的交互精度;在处理可视化、写小程序或复杂表格时,智能体会检索、对齐经过验证的成熟代码范式,确保产出结果具备「工程级」稳定性。

「任务助理」多层 Agent 的系统,深度集成了阿里自家生态的各种应用、工具,大量的应用会被拆解成原子化的指令级,确保了工具调用的准确。在跨场景任务上,系统能够正确地感知实时的位置、价格等时效信息,减少了大模型常见的幻觉问题。

千问的 Agent 系统还具备可以持续演进的能力。在完成任务之后,Agent 并不是就结束工作了,而是会像人一样进行「反思」并沉淀经验,让 Agent 可以持续进化。实践的经验会被转化为结构化经验库,作为先验知识在后续任务中动态加载。

这样,AI Agent 就可以逐渐具备人类的工作直觉。

最后,通过 AI Coding 的能力,千问现在可以在执行任务时发动 AI 生成代码能力现写工具。前面说到在大量任务上,Agent 可以实现精准的识别与操作。而在比较少见的任务上,千问的 Agent 可以启动 Agentic Learning 机制,自主编写、测试并封装新的原子工具。随着人们的使用,千问「任务助理」的能力会持续增强。

前天 Anthropic 发布的 Cowork,据说是十天之内用 AI 生成代码能力写出来的。看起来现在千问把类似的能力已经给你集成在智能体上了。千问表示,目前在数百个常用工具中,有超过一半是由 AI Coding 编程自主生成的。

智能体的 AI 革命  已经开始了

今年,AI 领域正在进入产品爆发的阶段。

仅在 1 月份,业界就出现了 Anthropic 的 Cowork,OpenAI 的 ChatGPT Health 等一系列新产品。各家科技公司正在快速兑现 OpenAI 总裁 Greg Brockman 对于智能体在企业、专业领域落地的预言。

刚刚千问的新发布,更是把智能体拉近到了我们身边:它能用快速精准的方式连接最常用的 App,让 Agent 进入到你生活的每一步。在国内,能做到覆盖如此全面的生活场景的公司,还真的只有阿里,其生态囊括了购物、出行、支付、办公等方方面面。

我们能够看出,目前这些 Agent 能力还显得比较简单 —— 正如第一代 iPhone 功能的简单并没有掩盖其划时代的意义一样,千问 APP 今日的推出,也许就像是智能体的 iPhone 时刻。从鼠标点击到手指触控,再到自然语言对话的交互方式升级,从这场发布开始打响了第一枪,人与机器的关系也进入到了第三次革命的关口。

当 AI 开始帮你整理发票、规划行程、甚至下单买咖啡时,它不再是云端那个高冷的「先知」,而变成了身边能干活的「助理」,这是 AI 从「言」到「行」的分水岭。

千问,会像淘宝开启移动互联网时代那样,开启一个全新的 AI 时代吗?我们拭目以待。

人脸机器人登上Science Robotics封面:用AI教会仿生人脸机器人「开口说话」

0%
icon展开列表
人脸机器人登上Science Robotics封面:用AI教会仿生人脸机器人「开口说话」
今天
img
实测夸克「千问划词快捷指令」,这7个邪修Prompt,建议收藏
今天
img
已证实!清华姚班陈立杰全职加入OpenAI,保留伯克利教职
今天
img
解锁任意步数文生图,港大&Adobe全新Self-E框架学会自我评估
今天
img
5分钟定制一个AI采购专家:讯飞发布“招采智能体工厂”,重新定义行业开发范式
今天
img
Agent时代,为什么多模态数据湖是必选项?
今天
img
大模型长脑子了?研究发现LLM中层会自发模拟人脑进化
今天
img
性能提升60%,英特尔Ultra3这次带来了巨大提升
01月14日
img
继宇树后,唯一获得三家大厂押注的自变量:具身模型不是把DeepSeek塞进机器人
01月14日
img
Sebastian Raschka 2026预测:Transformer统治依旧,但扩散模型正悄然崛起
01月14日
img
端到端智驾新SOTA | KnowVal:懂法律道德、有价值观的智能驾驶系统
01月14日
img
仅用10天?Anthropic最新智能体Cowork的代码竟然都是Claude写的
01月14日
img
AAAI 2026|AP2O-Coder 让大模型拥有「错题本」,像人类一样按题型高效刷题
01月14日
img
用AI从常规病理切片重建空间蛋白图谱:基于H&E图像的高维蛋白质表达预测
01月14日
img
京东首届AI影视创作大赛启动 最高奖金10万元邀全民共创AI视频
01月14日
img
合合信息多模态文本智能产品“上新”,覆盖AI教育、AI健康、AI Infra多元场景
01月14日
img
500万次围观,1X把「世界模型」真正用在了机器人NEO身上
01月14日
img
跳出「黑盒」,人大刘勇团队最新大语言模型理论与机理综述
01月14日
img
百川开源全球最强医疗大模型M3,「严肃问诊」定义AI医疗新能力
01月14日
img
相约AAAI 2026 | 上海AI实验室北极星 X 星启交流会(报名开启)
01月13日
img

人脸机器人登上Science Robotics封面:用AI教会仿生人脸机器人「开口说话」

图片

胡宇航(网名 “U 航”),毕业于美国哥伦比亚大学,博士学位,首形科技创始人。长期专注于机器人自主学习的研究工作。研究成果发表于《Nature Machine Intelligence》,《Science Robotics》等国际顶级期刊。致力于赋予机器人 “自我模型” 能力,即构建对自身物理结构与运动的内部表征,使机器人能够更好地理解自身,并适应多变的形态、环境与任务。在仿生人机交互方向,他提出融合语音、视觉与动作的情绪理解与表达一体化系统,为机器人提供更加自然的交互能力。通过自监督学习机制,他的方法使机器人在无需人工干预的情况下不断提升人机互动质量,朝着具备终身学习能力的智能体不断迈进。

图片

论文地址:https://www.science.org/doi/10.1126/scirobotics.adx3017

曾发表论文:

  • Hu, Yuhang, et al. "Human-robot facial coexpression." Science Robotics 9.88 (2024): eadi4724.

  • Hu, Yuhang, Jiong Lin, and Hod Lipson. "Teaching robots to build simulations of themselves." Nature Machine Intelligence (2025): 1-11.

  • https://mp.weixin.qq.com/s/HdnbBweZseTjMedyWHDLSg

2026 年 1 月 15 日,一项来自美国哥伦比亚大学工程学院的突破性研究正式发表于《Science Robotics》,并登上期刊封面。该研究展示了一项全新的机器人技术:一台具备仿生面部结构的人形机器人,通过深度学习实现与语音和歌曲同步的真实唇部运动。它能跟着人类的语言精准张合嘴唇,甚至,能跟着音乐唱歌。标志着人形机器人在人类最丰富的交流通道之一唇部表达上,迈出了突破性一步。

为什么 “嘴唇” 如此重要?

研究显示,在面对面的交流中,人类将近一半的注意力集中在唇部运动上。我们或许能容忍机器人走路笨拙、手部动作僵硬,但哪怕极其轻微的不自然面部表情,都会立刻引发本能的不适。这正是著名的 “恐怖谷”。

长期以来,即便是最先进的人形机器人,在 “说话” 时也只能做出类似木偶的张合动作 —— 如果它们有脸的话。但这一次,情况正在发生改变。

一个会自主学习表情的机器人

在这项研究中,研究团队打造了一张高度仿生的机器人面孔:

在一层柔性硅胶皮肤之下,隐藏着 20 余个微型电机,能够快速、安静且协同地驱动唇部形变。

图片

图 2. 机器人唇形硬件结构。(A)面部机器人设计概览,重点展示了人机交互关键组件:包括扬声器、麦克风、高清摄像模块,以及用于固定柔软硅胶面皮的磁吸式快拆连接器。该连接器能实现面皮的精准定位,并通过推拉双向运动驱动硅胶面皮,完成说话时所需的复杂唇部动作。(B)搭载柔软硅胶面皮的人形机器人外观展示。其底座内部集成有边缘计算设备。(C)唇部驱动系统特写,展示上唇、下唇与唇角连接器分别对应固定于相应唇部支架。柔软可替换的面皮通过磁吸连接器固定,可便捷拆卸以进行维护或个性化调整。

随后,机器人被 “带到镜子前”…

就像一个第一次对着镜子学做表情的孩子,机器人通过观察自己面部在不同电机驱动下的变化,构建 Facial Action Transformer (FAT) 模型,逐渐学会如何控制自己的脸(机器人自我建模 Robotic Self-modeling)。研究团队将这一过程称为一种 “视觉 — 动作” 的自监督学习

图片

图 3. 机器人能实现的口型及其对应音标展示。该机器人展示了再现关键英语音标的能力,例如爆破音(/p/ 和 /b/)、双唇音(/m/)以及圆唇元音(/u/ 和 /o/)。通过独立控制上唇、下唇及嘴角,每帧图像均捕捉到其实现的典型唇部运动效果。这些数据为机器人在说话时实现正确的唇形匹配奠定了基础。

依靠纯声音驱动嘴形动作

接着,机器人通过观看合成的机器人视频(通过 Wav2Lip)在不同语音语料(由 TTS 和 ChatGPT 生成)的真实唇部变化,进一步学习声音与唇部运动之间的对应关系。最终,这两种能力被整合在一起 —— 机器人得以将收到的声音信号,直接转化为连续、自然的唇部运动。无需理解语义,机器人已经能 “对得上口型”。

图片

图 4. 机器人唇形同步的自监督学习框架。 (A) 数据收集阶段:机器人通过与语音相关的随机指令自主生成数据集,利用 RGB 摄像头捕捉广泛的唇部运动,以获取 3D 唇形数据。(B) 部署过程:始于来自 ChatGPT 的文本输入,文本被转换为音频,随后利用 Wav2Lip 技术合成机器人视频。利用真实机器人视频及其对应指令,训练由编码器和解码器(VAE)组成的机器人逆向变换器,以生成平滑、准确、可供真实机器人执行的电机指令。

多语言能力

研究团队测试了机器人在多种语言、不同语音环境甚至歌曲中的表现。结果显示,即使在复杂的语音节奏下,机器人也能完成连贯的唇部同步,甚至演唱来自其 AI 生成的曲目。

      机器人多语言口型对齐能力

图片

图 5. 多语言唇语同步性能量化表现。x 轴标签下方标注的样本量 n 对应每种语言的测试句子视频帧数。结果表明,所有非英语语言的同步误差均保持在英语误差范围内,显示出稳健的跨语言泛化能力。

当然,这还不是终点。研究者坦言,像 “B” 这类需要完全闭唇的音,以及 “W” 这类涉及明显撮唇的发音,仍然存在挑战。但关键在于 —— 这是一种可以随着学习持续进化的能力,而不是写死的规则。

跨越恐怖谷的 “缺失环节”

在研究者看来,面部表情 —— 尤其是唇部的自然运动,正是长期以来机器人能力中的 “缺失环节”。“当前的人形机器人更多关注行走和抓取,但凡是需要与人面对面交流的场景,面部表达同样关键。”

随着人形机器人逐渐进入娱乐、教育、医疗、陪护等高度依赖情感沟通的领域,一张温暖、自然、可信的‘脸’将不再是加分项,而是入场券。经济学家预测,未来十年全球或将制造超过十亿台人形机器人进入人们的生活场景。而几乎可以确定的是 —— 它们不可能都没有脸。

从实验室走向现实

这项封面研究,不仅是一次学术突破,也展示了中国学者在国际人形机器人领域具备独特的创新能力。

第一作者胡宇航博士表示,当唇部同步能力与对话型大模型结合时,机器人与人类之间的连接将发生质变。“我们交流中有大量情感信息并不在语言本身,而在面部和身体语言中。机器人正在开始触碰这条通道。”

当机器人真正学会像人一样 “说话” 和 “表达”,

恐怖谷,正在被一步步填平。

人类与机器人的信任和情感,将会迎来新的篇章。

Microsoft 2026年1月补丁星期二修复3个零日漏洞和114个安全缺陷

比利时AZ Monica医院遭网络攻击后关闭所有服务器

Target员工确认泄露源代码为真实数据

Betterment在加密货币诈骗邮件浪潮后确认数据泄露

ChatGPT即将推出的跨平台功能代号为"Agora"

Google计划通过Gemini将Android版Chrome打造为智能代理浏览器

Google个人智能系统将Gmail、照片和搜索与Gemini深度整合

OpenAI隐藏版ChatGPT翻译工具正挑战Google Translate

微软2026年1月补丁星期二修复3个零日漏洞和114个安全缺陷

比利时AZ Monica医院遭网络攻击后关闭所有服务器

Target员工确认泄露源代码为真实数据

Betterment在加密货币诈骗邮件浪潮后确认数据泄露

ChatGPT即将推出的跨平台功能代号为"Agora"

谷歌计划通过Gemini将Android版Chrome打造为智能代理浏览器

谷歌个人智能系统将Gmail、照片和搜索功能接入Gemini

OpenAI隐藏版ChatGPT翻译工具正挑战谷歌翻译

微软2026年1月补丁星期二修复3个零日漏洞和114个安全缺陷

比利时AZ Monica医院遭网络攻击后关闭所有服务器

Target员工确认泄露源代码为真实数据

Betterment在加密货币诈骗邮件浪潮后确认数据泄露事件

ChatGPT即将推出的跨平台功能代号为"Agora"

谷歌计划通过Gemini将Android版Chrome打造为智能体浏览器

谷歌个人智能系统将Gmail、相册和搜索与Gemini深度整合

OpenAI隐藏版ChatGPT翻译工具正挑战谷歌翻译

实测夸克「千问划词快捷指令」,这7个邪修Prompt,建议收藏

0%
icon展开列表
实测夸克「千问划词快捷指令」,这7个邪修Prompt,建议收藏
今天
img
已证实!清华姚班陈立杰全职加入OpenAI,保留伯克利教职
今天
img
解锁任意步数文生图,港大&Adobe全新Self-E框架学会自我评估
今天
img
5分钟定制一个AI采购专家:讯飞发布“招采智能体工厂”,重新定义行业开发范式
今天
img
Agent时代,为什么多模态数据湖是必选项?
今天
img
大模型长脑子了?研究发现LLM中层会自发模拟人脑进化
今天
img
性能提升60%,英特尔Ultra3这次带来了巨大提升
01月14日
img
继宇树后,唯一获得三家大厂押注的自变量:具身模型不是把DeepSeek塞进机器人
01月14日
img
Sebastian Raschka 2026预测:Transformer统治依旧,但扩散模型正悄然崛起
01月14日
img
端到端智驾新SOTA | KnowVal:懂法律道德、有价值观的智能驾驶系统
01月14日
img
仅用10天?Anthropic最新智能体Cowork的代码竟然都是Claude写的
01月14日
img
AAAI 2026|AP2O-Coder 让大模型拥有「错题本」,像人类一样按题型高效刷题
01月14日
img
用AI从常规病理切片重建空间蛋白图谱:基于H&E图像的高维蛋白质表达预测
01月14日
img
京东首届AI影视创作大赛启动 最高奖金10万元邀全民共创AI视频
01月14日
img
合合信息多模态文本智能产品“上新”,覆盖AI教育、AI健康、AI Infra多元场景
01月14日
img
500万次围观,1X把「世界模型」真正用在了机器人NEO身上
01月14日
img
跳出「黑盒」,人大刘勇团队最新大语言模型理论与机理综述
01月14日
img
百川开源全球最强医疗大模型M3,「严肃问诊」定义AI医疗新能力
01月14日
img
相约AAAI 2026 | 上海AI实验室北极星 X 星启交流会(报名开启)
01月13日
img
视觉模型既懂语义,又能还原细节,南洋理工&商汤提出棱镜假说
01月13日
img

实测夸克「千问划词快捷指令」,这7个邪修Prompt,建议收藏

新年第一天,DeepSeek 发布了一篇艰深晦涩的技术论文,不少网友直呼「看不懂」。

图片

于是,机器之心评论区出现了集体求助 AI 的一幕:有人让 AI 用八十岁老太太能听懂的方式解释,有人要求用大白话翻译,还有人直接说「当我是幼儿园小朋友,给我讲明白」。

图片

这场景既搞笑又真实。如今,我们面对复杂信息时,第一反应已经是向 AI 求援,而非硬啃。但问题来了,同样是使用 AI,有些人总能得到精准、高质量的回答,而有些人却总在和 AI「鸡同鸭讲」。

这样的体验让不少人对 AI 的智能程度产生怀疑,抱怨 AI 不够聪明、听不懂人话、是个「智障」。可事实并非如此,问题可能出在我们的提问方式上。

一个完美的指令,关键在于让 AI 确认它是否真正理解我们的需求,这就是为什么网上会流传各种提示词模板,这些经过反复打磨的指令,往往能让 AI 输出质量提升好几个 level。

不过,新的痛点也随之而来,这些高频使用的指令,每次都要从头输入一遍,不仅浪费时间,还容易因为表述不同导致效果不稳定。

如果有一个方法,能把这些指令变成一键调用的快捷键,会怎样?

最近,夸克 AI 浏览器功能更新,「千问划词」支持自定义快捷指令。如果你常常需要对文稿进行内容润色、检查、优化,只需提前设置好常用的提示词,就能开启更精准、更快捷的划词体验。

图片

简单来说,就是把那些已经验证过、效果很好的提示词固定下来,需要时一键调用。

用法也很简单,我们只需在设置里找到「划词工具栏」,点击「添加自定义指令」,输入常用指令,比如「请将以下内容翻译成中文:{selection} 要求翻译准确流畅,符合中文表达习惯,避免生硬直译」,再给指令起个名字,专属指令就设置成功了。

图片

这里提一嘴,输入常用指令时系统有一套规则:需使用 {selection} 来表示划词选中的文字。

后续在浏览网页或文档时,遇到需要协助翻译、润色、检查的段落,只需轻轻划选,指令即可一键使用,告别复制粘贴、重复手动输入的麻烦。

一手实测:用夸克 AI 浏览器玩转 100 个指令

说实话,很多人觉得 AI 难用,就是被那些长到记不住的提示词给劝退的。既然如此,不妨交给浏览器来记。

最近,我们对着夸克 AI 浏览器疯狂实测了一波,从中精选出 7 类最实用指令,接下来全是干货。

邪修提示词

最近,博主「张咋啦 zara」分享了一个超好用的邪修 Prompt:tell me what you need from me to do this well。翻译过来就是「为了执行好这个任务,你需要我给你提供什么?」

她表示,AI 背后的人格是个助手,而助手的第一要务是满足用户需求,很多时候 AI 不好意思跟我们提需求,这就导致当我们给 AI 的上下文不够完整时,它就瞎干,最终交付的结果自然无法达到我们的预期。

所以,我们可以主动询问 AI 的需求,然后再想方设法满足,执行效果会好很多。

我们索性用夸克 AI 浏览器的「千问划词 - 快捷指令」试试。当然 Prompt 也根据具体使用场景,改得稍微具体了些:

「我需要你帮我润色以下内容:{selection} ,为了执行好这个任务,你需要我提供什么额外信息?请列出你需要了解的关键要素,以便给出最优质的回答。」

设置好后,我们拿《马斯克的「移动客厅」又火了:20 人座无方向盘,每公里才 3 毛钱》这篇文章进行测试。
图片

AI 终于大大方方提出疑问:目标受众、发布平台、侧重表达的观点以及语言风格分别是什么,还贴心地举了例子。得到回答后,刷刷几下子润色版本就出来了,在保留核心信息基础上,语言更具网感。

有一说一,让 AI 先问清需求,再精准输出,比直接让它润色效果好太多

毒舌大师

国外一博主也摸索出 AI 的一些骚操作。

一般来说,AI 总爱跟我们假客气,说啥它都顺毛捋,所以该博主给 AI 立了个毒舌导师的人设,我们反手就将这个提示词设置为夸克 AI 浏览器的划词指令:

「你是我冷酷无情的导师,别跟我绕弯子。请严格批评以下内容:{selection},要求是如果想法烂透了,就直接说这是垃圾。你的工作就是把所有问题都挑出来,直到我说无懈可击为止。批评完后,用一句话告诉我改进方向,然后帮我修改,能更吸引人。」

题好一半文。扒出之前写的一篇流量堪忧的文章,点击「毒舌大师」快捷指令搞个更吸引人的标题。

图片

AI 毫不留情地开喷「主题不明确、信息陈旧、用词情绪化,更像是社交媒体的几句牢骚」。骂完就给出改进方向,并直接甩出修改版本。

AI 终于不跟我们装熟了,给的建议也更靠谱。以后编辑部谁写的东西自我感觉良好,就让这个毒舌模式喷一遍。

讲完邪修用法,我们再来看看工作学习具体场景。

人话翻译器

对于很多机器之心读者来说,最头疼的场景之一,就是读那些不明觉厉的专业论文。

以上文提到的 DeepSeek 技术论文为例,网友求助 AI 的表述五花八门,但核心需求其实是一致的,那就是把复杂的学术内容转化为通俗易懂的表达。

我们可以用夸克整个「人话翻译器」划词指令:

「你是一位擅长科普的教育工作者,请用费曼学习法解释以下内容: {selection},要求先用一个生活化的类比引入概念,再拆解核心逻辑,最后用一句话总结。语言要生动,避免术语堆砌。」

打开一篇论文,遇到看不懂的段落,划词选中,夸克 AI 浏览器几秒钟就能给出通俗解读。

图片

这比每次都要输入「用大白话解释」要精准得多,因为 AI 已经知道要用什么结构、什么风格来回答。

论文引用查找器

论文党基本绕不过翻译、写作、修改、引用查询等环节,有了 AI 后,干这些活的效率直线上升,但用到的提示词来来回回也就那几个。这时,夸克的划词指令就派上用场。

举个例子。我们搞了个「引用来源查询」的划词指令:

「你是一位学术研究助手,精通文献检索。请针对以下观点或数据进行分析:{selection},1)判断这可能属于哪个研究领域的哪个分支;2)推测可能的引用来源类型(奠基性理论文献、实证研究、综述文章、方法论文献);3)提供搜索关键词建议;4)如果这是经典理论或常见观点,告诉我通常会引用哪些代表性文献或学者。注意:不需要提供具体论文链接,只需给我检索方向即可。」

想想以前核查引用来源,我们需要打开 Google Scholar,用各种关键词搜索,翻阅十几篇论文的摘要,判断哪些可能相关,再去下载 PDF 查看全文,最后才能确认是不是要找的那篇。一个引用来源,可能要花半小时甚至更久。

现在我们只需划词选中 DeepSeek 论文中一句话,点击「引用来源查询」,AI 不仅给出研究领域、来源类型、搜索关键词建议,甚至连代表性文献和学者也清晰罗列出来。

图片

后续我们沿着这个方向,再去 Google Scholar 检索,效率飙升。

AI 在提升效率的同时,还会提醒我们这个观点属于什么研究脉络、应该引用什么类型的文献,这对于学术新手来说特别有价值。

爆款生成器

至于内容创作者,千问划词 - 快捷指令就更有用武之地了。

以机器之心编辑部为例,同一个话题要在 X、小红书、微博等多个平台发布,但每个平台的调性和用户偏好完全不同。

以前的做法是,编辑写好原稿后,再手动改写成各种版本,每个版本都要重新调整语气、结构、表述方式。现在,我们用夸克的「千问划词 - 快捷指令」,就能针对不同平台定制不同的改写指令。

比如同样是「特斯拉 FSD 首次横穿美国,Model3 实现 1 万英里零干预」这一话题,小红书爆款生成器的生成结果更生活化、更有共鸣感。
图片

「小红书爆款生成器」的指令是:你是一位小红书爆款内容创作者,请把以下内容改写成小红书风格:{selection},要求:1)开头用 emoji 和惊叹式标题吸引注意力;2)把专业内容转化为「对用户有什么用」的实用角度;3)多用短句和段落,每段不超过两句话;4)结尾加上互动引导(如「你会用吗?」「评论区聊聊」);5)适当加入网络热词但不要过度;6)控制在 500 字以内。

微博热搜体的表达则是短平快抓眼球。

图片

「微博热搜体」的指令是:你是一个专业的爆款微博大师,要求:1)用中括号【】先提炼最核心的信息做成一个标题;2)整体控制在 140 字以内;3)突出话题性和新闻感;4)加上 2-3 个相关话题标签;5)可以适当制造悬念引导点击链接。请把以下内容浓缩成一条微博:{selection}

X 平台则更偏向专业简洁。

图片

「X 平台国际化表达」的指令是:请把以下中文内容翻译成英文并调整为国际用户的阅读习惯:{selection},要求:1)语言简洁直白,避免中式思维的复杂从句;2)突出核心事实,少用形容词和情绪化表达;3)如果涉及中国特有的概念或梗,要加简单解释;4)保持科技媒体的专业度但不要过于学术化;5)控制在 280 字符以内。

通过千问划词 - 快捷指令,一篇内容快速适配多个平台,大大节省了编辑和运营同事反复思考和修改的时间。

不止于指令:一个更强大的 AI 浏览器

千问划词 - 快捷指令只是夸克 AI 浏览器能力升级的一部分。在这次更新中,夸克表现出更大野望,即成为一个真正意义上的超级应用。

夸克 AI 浏览器除了全面融合千问 AI 助手,实现全局桌面唤起 AI 的创新交互形态;在阿里 Qwen 大模型加持下,近期更是一口气上线了十多种模型,供用户自由选择

图片

同时它也支持语音、图片、文件等多模态输入。

图片

      首页、侧边栏、快捷框等均可实现语音输入。

此外,夸克 AI 浏览器还内置一系列实用的 AI 工具。这些工具组合起来,可以构建起一套完整的一站式工作流。

比如我们要准备一份马斯克 SpaceX 的介绍 PPT,可以先使用夸克 AI 浏览器中的「超级播放器」,5 倍速观看相关视频,AI 实时生成字幕、翻译,并自动总结视频摘要和脑图,半小时的视频几分钟就能掌握。

然后调用夸克 PPT 工具生成汇报材料,将上述 AI 视频摘要输入进去,就能一键生成图文并茂的 PPT。海量模板任选,大纲随时调整。

夸克 AI 浏览器仍在以极快的速度持续进化,不断挖掘并满足用户更精细化的需求。我们有理由相信,随着 AI 交互方式的持续创新优化、与工作流的深度整合,一个更强大的 AI 浏览器背后,是让个人真正实现「一个人即能活成一支队伍」的能力底座,所谓的「超级个体」也将不再是一句空话。

自 2014 年推出以来,Apple Pay 已经从最初替代实体钱包的电子支付体验,发展成为了如今覆盖商品交易、身份认证、出行场景的电子钱包服务平台。

除了基础的交易功能,我们可以用 Home Key 解锁家门、用 Car Key 解锁车辆,也可以将各类凭证票据放进钱包 app,通过 Apple Pay 完成信息验证。

截至 2025 年,Apple Pay 已经进入全球 89 个国家与地区的本地市场,与超过 1.1 万家银行与网络达成了合作,并在去年为商户带来了超过 1000 亿美元的额外成交收入。

要达到如今的成绩,与 Apple Pay 的设计初衷密不可分。

据 Apple 介绍,Apple Pay 在上线之初就以提供简单、安全、私密的支付体验为目标,安全与隐私毫无疑问是重中之重。当用户将银行卡与 Apple Pay 绑定使用时,Apple 并不会在云端服务器存储用户的实体卡号信息,而是会以经过加密的专属设备账号存储在设备的安全元件中;若将同一张银行卡绑定到不同设备上,不同设备上的 Apple Pay 支付卡也将获得不同的账号号码。

能够得到全球范围内如此多家银行与网络的合作支持,为 Apple Pay 提供功能适配,就已经能够说明这项功能的安全性有多完善了。据 Apple 服务业务高级副总裁 Eddy Cue 日前公布的数据显示,Apple Pay 仅在 2025 一年就阻止了超过 10 亿美元的欺诈性交易。

在中国大陆地区市场,Apple Pay 目前已经支持了包括国有银行、股份制银行及多家城商银行在内的近 50 家发卡机构银行卡的绑定使用,覆盖范围非常全面;而在网络平台和线下商家方面,像是京东、大众点评、携程、滴滴出行、麦当劳和 KFC 等 40 家服务提供商都已经支持了通过 Apple Pay 完成付款和交易。

交通卡方面,Apple Pay 也已经支持了全国各地近 40 座城市交通卡的添加,可以用于在全国 300 多个城市刷卡乘坐地铁、公交车、轮渡等公共交通出行。这一数字每年也都在持续增加,Apple Pay 在 2025 年就新增了对杭州和昆明两座城市交通卡的支持。

2016 年 2 月 18 日,Apple 宣布 Apple Pay 在中国大陆地区正式上线,到现在几乎刚刚好过了十年时间。在这个特殊的时间节点,Apple Pay 也终于要再次迎来一次大的更新。

众所周知,在过去十年里,Apple Pay 支持添加的大陆地区发行卡种仅限有银联标识的信用卡和借记卡,其它卡种如 Visa 和 Mastercard 等则不支持添加;如果想要添加这些外币卡种,则只能添加港澳台地区或海外发行的相关卡片。

现在,这一限制终于迎来解除,Visa 成为首个在中国大陆地区支持本地接入的国际卡组织,由大陆地区银行机构发行的 Visa 银行卡已在 1 月 15 日正式支持接入 Apple Pay 中,前往港澳台地区或出境旅游将更为便利。

我们从 Apple 方面了解到,即日起已经支持添加 Visa 卡片至 Apple Pay 的银行有:

  • 中国工商银行 (Visa 信用卡)
  • 中国银行 (Visa 信用卡)
  • 中国农业银行 (Visa 信用卡)
  • 交通银行 (Visa 信用卡)
  • 招商银行 (Visa 信用卡)
  • 中信银行 (Visa 信用卡)
  • 平安银行 (Visa 信用卡)
  • 兴业银行 (Visa 信用卡)
  • 中信银行 (Visa 借记卡)

在未来几个月内,上海浦东发展银行、中国建设银行、中国民生银行、中国光大银行等更多银行发行的 Visa 信用卡也将陆续支持添加至 Apple Pay 中。据了解,大陆地区发行的 Mastercard 万事达卡,也同样将在未来数月内支持接入 Apple Pay 支付使用。

虽然目前在国内使用 Visa 或 Mastercard 的商铺相对而言不多,但除了使用 iPhone 和 Apple Watch 在线下实体刷卡以外,我们还能在 iPhone 或 iPad 上通过支持的 app 使用 Apple Pay 付款。此外,在 iPhone、iPad 和 Mac 的 Safari 浏览器中,只要线上商家支持,都可以选择使用 Apple Pay 交易结算,享受安全便捷的支付体验。

据介绍,在全球范围内支持通过 Visa 交易的商户,都可以使用添加进 Apple Pay 的国内 Visa 银行卡刷卡交易。对于国内发行的双币银行卡——即同时配备银联和 Visa 标识的同一张卡片——现在在添加至 Apple Pay 时,可以选择添加银联或 Visa 卡片,或者同时加入两种不同标识的两张卡片。

当然,目前 Apple Pay 添加 Visa 银行卡的功能才刚上线,难免可能会在部分银行的适配、卡片识别或商户受理范围等细节上出现差异或问题,实际体验仍有待进一步观察与完善。

有了开头就是好事,也期待 Apple Pay 能在不久的未来继续扩展更多银行和组织的相关卡片支持,以及增加更多新的使用功能,为用户带来更多便利及安全体验。