2026年1月

这两天在网络上又有一个东西火了,Twitter 的创始人 @jack 新的社交 iOS App  Damus 上苹果商店(第二天就因为违反中国法律在中国区下架了),这个软件是一个去中心化的 Twitter,使用到的是 nostr – Notes and Other Stuff Transmitted by Relays 的协议(协议简介协议细节),协议简介中有很大的篇幅是在批评Twitter和其相类似的中心化的产品,如:MastodonSecure Scuttlebutt 。我顺着去看了一下这个协议,发现这个协议真是非常的简单,简单到几句话就可以讲清楚了。

目录

通讯过程

  • 这个协议中有两个东西,一个是 client,一个是 relay,client 就是用户社交的客户端,relay 就是转发服务器。
  • 用户不需要注册,用户只需要有一个密钥对(公钥+私钥)就好了,然后把要发的信息做签名,发给一组 relays
  • 然后你的 Follower 就可以从这些 relays 上订阅到你的信息。

技术细节摘要

  • 技术实现上,nostr 使用 websocket + JSON 的方式。其中主要是下面这么几个指令
    • Client 到 Relay主要是下面这几个指令:
      • EVENT。发出事件,可以扩展出很多很多的动作来,比如:发信息,删信息,迁移信息,建 Channel ……扩展性很好。
      • REQ。用于请求事件和订阅更新。收到REQ消息后,relay 会查询其内部数据库并返回与过滤器匹配的事件,然后存储该过滤器,并将其接收的所有未来事件再次发送到同一websocket,直到websocket关闭。
      • CLOSE。用于停止被 REQ 请求的订阅。
    • Relay 到 Client 主要是下面几个指令:
      • EVENT。用于发送客户端请求的事件。
      • NOTICE。用于向客户端发送人类可读的错误消息或其他信息
  • 关于 EVENT 下面是几个常用的基本事件:
    • 0: set_metadata:比如,用户名,用户头像,用户简介等这样的信息。
    • 1: text_note:用户要发的信息内容
    • 2recommend_server:用户想要推荐给关注者的Relay的URL(例如wss://somerelay.com

如何对抗网络审查

那么,这个协议是如何对抗网络审查的?

  • 识别你的身份是通过你的签名,所以,只要你的私钥还在,你是不会被删号的
  • 任何人都可以运行一个或多个relay,所以,就很难有人控制所有的relay
  • 你还可以很方便的告诉其中的 relay 把你发的信息迁到另一个 relay 上
  • 你的信息是一次发给多个relay的,所以,只要不是所有的热门realy封了你,你就可以发出信息
  • 每个relay的运营者都可以自己制定规则,会审查哪些类型内容。用户据此选择即可。基本不会有一个全局的规则。
  • 如果你被全部的relay封了,你还是可以自建你的relay,然后,你可以通过各种方式告诉你身边的人你的relay服务器是什么?这样,他们把这个relay服务器加到他们的client列表中,你又可以从社死中复活了。

嗯,听起来很简单,整个网络是构建在一种 “社区式”的松散结构,完全可能会出现若干个 relay zone。这种架构就像是互联网的架构,没有中心化,比如 DNS服务器和Email服务器一样,只要你愿意,你完全可以发展出自己圈子里的“私服”。

其实,电子邮件是很难被封禁和审查的。我记得2003年中国非典的时候,我当时在北京,当时的卫生部部长说已经控制住了,才12个人感染,当局也在控制舆论和删除互联网上所有的真实信息。但是,大家都在用电子邮件传播信息,当时基本没有什么社交软件,大家分享信息都是通过邮件,尤其是外企工作的圈子,当时每天都要收很多的非典的群发邮件,大家还都是用公司的邮件服务器发……这种松散的,点对点的架构,让审查是基本不可能的。其实,我觉得 nostr 就是另外一个变种或是升级版的 email 的形式

如何对抗Spam和骗子

但是问题来了,如果不能删号封人的话,那么如何对抗那些制造Spam,骗子或是反人类的信息呢?nostr目前的解决方案是通过比特币闪电网络。比如有些客户端实现了如果对方没有follow 你,如果给他发私信,需要支付一点点btc ,或是relay要求你给btc才给你发信息(注:我不认为这是一个好的方法,因为:1)因为少数的坏人让大多数正常人也要跟着付出成本,这是个糟糕的治理方式,2)不鼓励那些生产内容的人,那么平台就没有任何价值了)。

不过,我觉得也有可以有下面的这些思路:

  • 用户主动拉黑,但很明显这个效率不高,而且体验不好
  • 社区或是同盟维护一个黑名单,relay定期更新(如同email中防垃圾邮件也是这样搞的),这其实也是审查。
  • 防Spam的算法过滤垃圾信息(如同email中干的),自动化审查。
  • 增加发Spam的成本,如: PoW 工作量证明(比特币的挖矿,最早也是用于Email),发信息要花钱(这个对正常用户伤害太大了)等。
  • ……

总之,还是有相应的方法的,但是一定没有完美解,email对抗了这么多年,你还是可以收到大量的垃圾邮件和钓鱼邮件,所以,我觉得 nostr 也不可能做到……

怎么理解审查

最后,我们要明白的是,无论你用什么方法,审查是肯定需要的,所以,我觉得要完全干掉审查,最终的结果就是一个到处都垃圾内容的地方!

我理解的审查不应该是为权力或是个体服务的,而是为大众和人民服务的,所以,审查必然是要有一个开放和共同决策的流程,而不是独断的

这点可以参考开源软件基金会的运作模式。

  • 最底端的是用户(User)参与开源社区的使用并提供问题和反馈。
  • 用户在使用过程中了解项目情况后贡献代码和文档就可以晋升为贡献者(Contributors),
  • 当贡献者提交一定数量贡献之后就可以晋升为提交者(Committers),此时你将拥有你参与仓库的代码读写权限。
  • 当提交者Committers在社区得到认可后,由项目管理委员会(PMC)选举并产生PMC成员(类似于议员),PMC成员拥有社区相关事务的投票、提名和共同决策权利和义务。

注意下面几点

  • 整个社区的决策者,是要通过自己贡献来挣到被选举权的。
  • 社区所有的工作和决定都是要公开的。
  • 社区的方向和决策都是要投票的,PMC成员有binding的票权,大众也有non-binding的投票权供参考。
  • 如果出现了价值观的不同,那么,直接分裂社区就好了,不同价值观的人加入到不同的社区就好了

如果审查是在这个框架下运作的话,虽然不完美,但至少会在一种公允的基础下运作,是透明公开的,也是集体决策的。

开源软件社区是一个很成功的示范,所以,我觉得只有技术而没有一个良性的可持续运作的社区,是不可能解决问题的,干净整齐的环境是一定要有人打扫和整理的

 

欢迎关注我 npub1w6r99545cxea6z76e8nvzjxnymjt4nrsddld33almtm78z7fz95s3c94nu
欢迎关注我 npub1w6r99545cxea6z76e8nvzjxnymjt4nrsddld33almtm78z7fz95s3c94nu

两个月前,我试着想用 ChatGPT 帮我写篇文章《eBPF 介绍》,结果错误百出,导致我又要从头改一遍,从那天我觉得 ChatGPT 生成的内容完全不靠谱,所以,从那天开始我说我不会再用 ChatGPT 来写文章(这篇文章不是由 ChatGPT 生成),因为,在试过一段时间后,我对 ChatGTP 有基于如下的认识:

  1. ChatGPT 不是基于事实,是基于语言模型的,事实对他来说不重要,对他重要的是他能读懂你的问题,并按照一定的套路回答你的问题。
  2. 因为是基于套路的回答,所以,他并不能保证内容是对的,他的目标是找到漂亮的精彩的套路,于是,你会发现,他的内容组织能力和表述还不错,但是只要你认真玩上一段时间,你会发现,ChatGPT 那些表述的套路其实也比较平常一般。它的很多回答其实都不深,只能在表面上。就像 Github 的 Copilot 一样,写不了什么高级的代码,只能帮你写一些常规格式化的代码(当然,这也够了)
ChatGPT 就是一个语言模型,如果不给他足够的数据和信息,它基本就是在胡编乱造

所以,基于上面这两个点认识,以发展的眼光来看问题,我觉得 ChatGPT 这类的 AI 可以成为一个小助理,他的确可以干掉那些初级的脑力工作者,但是,还干不掉专业的人士,这个我估计未来也很难,不过,这也很帅了,因为大量普通的工作的确也很让人费时间和精力,但是有个前提条件——就是ChatGPT所产生的内容必需是真实可靠的,没有这个前提条件的话,那就什么用也没有了

今天,我想从另外一个角度来谈谈 ChatGPT,尤其是我在Youtube上看完了微软的发布会《Introducing your copilot for the web: AI-powered Bing and Microsoft Edge 》,才真正意识到Google 的市值为什么会掉了1000亿美元,是的,谷歌的搜索引擎的霸主位置受到了前所未有的挑战……

我们先来分析一下搜索引擎解决了什么样的用户问题,在我看来搜索引擎解决了如下的问题:

  • 知识或信息索引。查新闻,查股票,查历史,查文档,找答案……
  • 找服务提供商。找卖东西的电商,找帮你修东西的服务,找软件……
  • 信息的准确和可靠。搜索引擎的rank算法保证了最准确、最有用、最权威的信息出现在最前面……(作恶的百度不在此列)

基本上就是上面这几个,搜索引擎在上面这几件事上作的很好,但是,还是有一些东西搜索引擎做的并不好,如:

  • 搜索引擎是基于关键词的,不是基于语义的。所以,搜索引擎并不知道你的真实需求,因此,你会不可避免地要干下面的事,
    • 你经常要不断地增加或调整不同的关键词来提高查询信息的准确度……
    • 你经常要在你查找的信息中进行二次或多次过滤和筛选……
  • 搜索引擎是只能呈现内容,无法解读内容。所以,你找到相关的链接后,你还要花大量的时间来阅读理解,经常性的你不可避免的要干下面的事:
    • 打开一个链接,读到了一大半后,发现你要的内容不在其中,只能关掉再打开一个……
    • 你想要的内容是在的,但是太晦涩,看不懂,太费解,你要找小白友好的版本……
    • 你想要的内容不完整,你需要在很多个链接和网页上做拼图游戏……
    • 内容是无法结构化的展示的,你搜到的东西全都是碎片信息
  • 搜索引擎没有上下文关联,两次搜索是没有关系的。也就是说,人知道的越多,问题也就越多,所以,我们经常会面临下面的问题:
    • 随着我了解的越多,我的信息搜索的会出现分支,这个分支只有我自己的管理,搜索引擎是不关心的,导致我每次都相当于从头开始……
    • 你做计划的时候,你需要从多个不同的搜索中获取你想要的东西,最终组合成你定制化的东西,比如做旅游计划……

好了,我们知道,ChatGPT 这类的技术主要是用来根据用户的需求来按一定的套路来“生成内容”的,只是其中的内容并不怎么可靠,那么,如果把搜索引擎里靠谱的内容交给 ChatGPT 呢?那么,这会是一个多么强大的搜索引擎啊,完全就是下一代的搜索引擎,上面的那些问题完全都可以解决了:

  • 你可以打一段话给搜索引擎,ChatGPT 是读得懂语义的。
  • 因为知道语义,于是在众多搜过结果中,他更知道哪些是你想要的内容。
  • ChatGPT 可以帮你生成 TL;DR,把长文中的要求总结出来形成更易读的短文
  • ChatGPT 可以帮你整理内容,在多个网页中帮你整合和结构化内容
  • ChatGPT 可以有上下文对话,你可以让他帮你不断通过更多的关键词搜索信息,并在同一个主题下生成、组织和优化内容

一旦 ChatGPT 利用上了搜索引擎内容准确和靠谱的优势,那么,ChatGPT 的能力就完全被释放出来了,所以,带 ChatGPT 的搜索引擎,就是真正的“如虎添翼”!

因此,微软的 Bing + ChatGPT,成为了 Google 有史以来最大的挑战者,我感觉——所有跟信息或是文字处理相关的软件应用和服务,都会因为 ChatGPT 而且全部重新洗一次牌的,这应该会是新一轮的技术革命……Copilot 一定会成为下一代软件和应用的标配!

这两天技术圈里热议的一件事就是Amazon的流媒体平台Prime Video在2023年3月22日发布了一篇技术博客《规模化Prime Video的音视频监控服务,成本降低90%》,副标题:“从分布式微服务架构到单体应用程序的转变有助于实现更高的规模、弹性和降低成本”,有人把这篇文章在五一期间转到了reddithacker news 上,在Reddit上热议。这种话题与业内推崇的微服务架构形成了鲜明的对比。从“微服务架构”转“单体架构”,还是Amazon干的,这个话题足够劲爆。然后DHH在刚喷完Typescript后继续发文《即便是亚马逊也无法理解Servless或微服务》,继续抨击微服务架构,于是,瞬间引爆技术圈,登上技术圈热搜。

今天上午有好几个朋友在微信里转了三篇文章给我,如下所示:

看看这些标题就知道这些文章要的是流量而不是好好写篇文章。看到第二篇,你还真当 Prime Video 就是 Amazon 的全部么?然后,再看看这些文章后面的跟风评论,我觉得有 80%的人只看标题,而且是连原文都不看的。所以,我想我得写篇文章了……

原文解读

要认清这个问题首先是要认认真真读一读原文,Amazon Prime Video 技术团队的这篇文章并不难读,也没有太多的技术细节,但核心意思如下:

1)这个系统是一个监控系统,用于监控数据千条用户的点播视频流。主要是监控整个视频流运作的质量和效果(比如:视频损坏或是音频不同步等问题),这个监控主要是处理视频帧,所以,他们有一个微服务主要是用来把视频拆分成帧,并临时存在 S3 上,就是下图中的 Media Conversion 服务。

2)为了快速搭建系统,Prime Video团队使用了Serverless 架构,也就是著名的 AWS Lambda 和 AWS Step Functions。前置 Lambda 用来做用户请求的网关,Step Function 用来做监控(探测器),有问题后,就发 SNS 上,Step Function 从 S3 获取 Media Conversion 的数据,然后把运行结果再汇总给一个后置的 Lambda ,并存在 S3 上。

整个架构看上去非常简单 ,一点也不复杂,而且使用了 Serverless 的架构,一点服务器的影子都看不见。实话实说,这样的开发不香吗?我觉得很香啊,方便快捷,完全不理那些无聊的基础设施,直接把代码转成服务,然后用 AWS 的 Lamda + Step Function + SNS + S3 分分钟就搭出一个有模有样的监控系统了,哪里不好了?!

但是他们遇到了一个比较大的问题,就是 AWS Step Function 的伸缩问题,从文章中我看到了两个问题(注意前方高能):

  1. 需要很多很多的并发的 AWS Step Function ,于是达到了帐户的 hard limit。
  2. AWS Step Function 按状态转换收费,所以,贵得受不了了。

注意,这里有两个关键点:1)帐户对 Step Function 有限制,2)Step Function 太贵了用不起

然后,Prime Video 的团队开始解决问题,下面是解决的手段:

1) 把 Media Conversion  和 Step Function 全部写在一个程序里,Media Conversion 跟 Step Function 里的东西通过内存通信,不再走S3了。结果汇总到一个线程中,然后写到 S3.

2)把上面这个单体架构进行分布式部署,还是用之前的 AWS Lambda 来做入门调度。

EC2 的水平扩展没有限制,而且你想买多少 CPU/MEM 的机器由你说了算,而这些视频转码,监控分析的功能感觉就不复杂,本来就应该写在一起,这么做不更香吗?当然更香,比前面的 Serverless 的确更香,因为如下的几个原因:

  1. 不再受 Step Function 的限制了,技术在自己手里,有更大的自由度。
  2. 没有昂贵的 Step Function 云成本的确变得更低了,如果你把 Lambda 换成 Nginx 或 Spring Gateway 或是我司的 Easegress,你把 S3 换成 MinIO,你把 SNS 换成 Kafka,你的成本 还能再低。

独立思考

好了,原文解读完了,你有自己的独立思考了吗?下面是我的独立思考,供你参考:

1)AWS 的 Serverless 也好, 微服务也好,单体也好,在合适的场景也都很香。这就跟汽车一样,跑车,货车,越野车各有各的场景,你用跑车拉货,还是用货车泡妞都不是一个很好的决定。

2)这篇文章中的这个例子中的业务太过简单了,本来就是一两个服务就可以干完的事。就是一个转码加分析的事,要分开的话,就两个微服务就好了(一个转码一个分析),做成流式的。如果不想分,合在一起也没问题了,这个粒度是微服务没毛病。微服务的划分有好些原则,我这里只罗列几个比较重要的原则:

  • 边界上下文。微服务的粒度不能大于领域驱动里的 Bounded Context(具体是什么 大家自行 Google),也就是一个业务域。
  • 单一职责,高内聚,低耦合。把因为相同原因变化的合在一起(内聚),把不同原因变化的分开(解耦)
  • 事务和一致性。对于两个重度依赖的功能,需要完成一个事务和要保证强一致性的,最好不要拆开,要放在一起。
  • 跟组织架构匹配。把同一个团队的东西放在一起,不同团队的分开。

3)Prime Video 遇到的问题不是技术问题,而是 AWS  Step Function 处理能力不足,而且收费还很贵的问题。这个是 AWS 的产品问题,不是技术问题。或者说,这个是Prime Video滥用了Step Function的问题(本来这种大量的数据分析处理就不适合Step Function)。所以,大家不要用一个产品问题来得到微服务架构有问题的结论,这个没有因果关系。试问,如果 Step Funciton 可以无限扩展,性能也很好,而且白菜价,那么 Prime Video 团队还会有动力改成单体吗?他们不会反过来吹爆 Serverless 吗?

4)Prime Video 跟 AWS 是两个独立核算的公司,就像 Amazon 的电商和 AWS 一样,也是两个公司。Amazon 的电商和 AWS 对服务化或是微服务架构的理解和运维,我个人认为这个世界上再也找不到另外一家公司了,包括 Google 或 Microsoft。你有空可以看看本站以前的这篇文章《Steve Yegg对Amazon和Google平台的吐槽》你会了解的更多。

5)Prime Video 这个案例本质上是“下云”,下了 AWS Serverless 的云。云上的成本就是高,一个是费用问题,另一个是被锁定的问题。Prime Video 团队应该很庆幸这个监控系统并不复杂,重写起来也很快,所以,可以很快使用一个更传统的“服务化”+“云计算”的分布式架构,不然,就得像 DHH 那样咬牙下云——《Why We’re Leaving the Cloud》(他们的 SRE 的这篇博文 Our Cloud Spend in 2022说明了下云的困难和节约了多少成本)

后记

最后让我做个我自己的广告。我在过去几年的创业中,帮助了很多公司解决了这些 分布式,微服务,云原生以及云计算成本的问题,如果你也有类似问题。欢迎,跟我联系:[email protected]

另外,我们今年发布了一个平台 MegaEase Cloud,就是想让用户在不失去云计算体验的同时,通过自建高可用基础架构的方式来获得更低的成本(至少降 50%的云计算成本)。目前可以降低成本的方式:

  1. 基础软件:通过开源软件自建,
  2. 内容分发:MinIO + Cloudflare 的免费 CDN,
  3. 马上准备发布的直接与底层IDC合作的廉价GPU计算资源…

欢迎大家试用。

如何访问

注:这两个区完全独立,帐号不互通。因为网络的不可抗力,千万不要跨区使用。

产品演示

介绍文章

 

一、

最近,我写了好几篇 AI 教程,就收到留言,要我谈谈我自己的 AI 编程。

今天就来分享我的 AI 编程,也就是大家说的"氛围编程"(vibe coding)。

声明一下,我只是 AI 初级用户,不是高手。除了不想藏私,更多是为了抛砖引玉,跟大家交流。

二、

平时,我很少用 AI 生成新项目。因为每次看 AI 产出的代码,我总觉得那是别人的代码,不是我的。

如果整个项目都用 AI 生成,潜意识里,我感觉不到那是自己的项目。我的习惯是,更愿意自己写新项目的主体代码。

我主要把 AI 用在别人的项目和历史遗留代码,这可以避免读懂他人代码的巨大时间成本。

就拿历史遗留代码为例,(1)很多时候没有足够的文档,也没有作者的说明,(2)技术栈和工具库都过时了,读懂代码还要翻找以前的标准,(3)最极端的情况下,只有构建产物,没有源代码,根本无法着手。

AI 简直就是这类代码的救星,再古老的代码,它都能读懂和修改,甚至还能对构建产物进行逆向工程。

下面就是我怎么用 AI 处理历史遗留代码,平时我基本就是这样来 AI 编程。

三、

我的 AI 编程工具是 Claude Code。因为命令行对我更方便,也容易跟其他工具集成。

我使用的 AI 模型,大部分时间是国产的 MiniMax M2。我测过它的功能,相当不错,能够满足需要,它的排名也很靠前。

另外,它有包月价(29元人民币),属于最便宜的编程模型之一,可以放心大量使用,反复试错。要是改用大家都趋之若鹜的 Claude 系列模型,20美元的 Pro 套餐不够用,200美元的 Max 套餐又太贵。

MiniMax 接入 Claude Code 的方法,参考我的这篇教程

四、

就在我写这篇文章的时候,MiniMax 本周进行了一次大升级,M2 模型升级到了 M2.1

因为跟自己相关,我特别关注这次升级。

根据官方的发布声明,这次升级特别加强了"多语言编程能力",对于常用编程语言(Rust、Java、Golang、C++、Kotlin、Objective-C、TypeScript、JavaScript 等)有专门强化。

它的 WebDev 与 AppDev 开发能力因此有大幅提升,可以用来开发复杂的 Web 应用和 Android/iOS 的原生 App。

"在软件工程相关场景的核心榜单上,MiniMax M2.1 相比于 M2 有了显著的提升,尤其是在多语言场景上,超过 Claude Sonnet 4.5 和 Gemini 3 Pro,并接近 Claude Opus 4.5。"

根据上面这段介绍,它的编程能力,超出或接近了国外旗舰模型。

这个模型已经上线了,现在就能用。那么,这篇文章正好测一下,官方的介绍是否准确,它的 Web 开发能力到底有没有变强。

至于价格,跟原来一样。但是,官方表示"响应速度显著提升,Token 消耗明显下降",也算变相降价了。

M2.1 接入 Claude Code,我的参数如下。

五、

我这次选择的历史遗留项目是 wechat-format,一个 Web 应用,将 Markdown 文本转为微信公众号的样式。

上图左侧的文本框输入 Markdown 文本,右侧立刻显示自动渲染的结果,可以直接复制到微信公众号的编辑器。

它非常好用,大家可以去试试看。我的公众号现在就用它做排版,效果不错(下图)。

问题是,原作者六年前就放弃了,这个项目不再更新了。我看过源码,它用的是老版本的 Vue.js 和 CodeMirror 编辑器,没有任何文档和说明,还经过了编译工具的处理,注释都删掉了。

如果不熟悉它的技术栈,想要修改这些代码是很困难的,可能要投入大量时间。

那么废话少说,直接让 AI 上场,把这些代码交给 MiniMax M2.1 模型。

六、

接手老项目的第一步,是对项目进行一个总体的了解。

我首先会让 AI 生成项目概述。大家可以跟着一起做,跟我的结果相对照。


# 克隆代码库
$ git clone [email protected]:ruanyf/wechat-format.git

# 进入项目目录
$ cd wechat-format

# 启动 Claude Code
$ claude-minimax

上面的claude-minimax是我的自定义命令,用来在 Claude Code 里面调用 MiniMax 模型(参见教程)。

输入"生成这个仓库的概述"。

AI 很快就给出了详细说明,包括项目的总体介绍、核心功能、技术栈和文件结构(下图)。

有了总体了解以后,我会让 AI 解释主要脚本文件的代码。

【提示词】解释 index.html 文件的代码

它会给出代码结构和页面布局(上图),然后是 JS 脚本加载顺序和 Vue 应用逻辑,甚至包括了流程图(下图),这可是我没想到的。

做完这一步,代码库的大致情况应该就相当了解了,而 AI 花费的时间不到一分钟。

七、

既然这个模型号称有"多语言编程能力",我就让它把项目语言从 JavaScript 改成 TypeScript。

对于很多老项目来说,这也是常见需求,难度不低。

它先制定了迁移计划,然后生成了 tsconfig.json 和 types.d.ts,并逐个将 JS 文件转为对应的 TS 文件(下图)。

修改完成后,它试着运行这个应用,发现有报错(下图),于是又逐个解决错误。

最终,迁移完成,它给出了任务总结(下图)。

我在浏览器运行这个应用,遇到了两个报错:CodeMirror 和 FuriganaMD 未定义。

我把报错信息提交给模型,它很快修改了代码,这次就顺利在浏览器跑起来了。

至此,这个多年前的 JavaScript 应用就成功改成了 TypeScript 应用,并且所有内部对象都有了完整的类型定义。

你还可以接着添加单元测试,这里就省略了。

八、

简单的测试就到此为止,我目前的 AI 编程大概就到这个程度,用 AI 来解释和修改代码。我也建议大家,以后遇到历史遗留代码,一律先交给 AI。

虽然这个测试比较简单,不足以考验 MiniMax M2.1 的能力上限,但如果人工来做上面这些事情,可能一个工作日还搞不定,但是它只需要十几分钟。

总体上,我对它的表现比较满意。大家都看到了,我的提示词很简单,就是一句话,但是它正确理解了意图,如果一次没有成功,最多再修改一两次就正确了。

而且,就像发布说明说的一样,它运行速度很快,思考过程和生成过程最多也就两三分钟,不像有的模型要等很久。

另外,不管什么操作,它都会给出详细的讲解和代码注释。

总之,就我测试的情况来看,这个模型的 Web 开发能力确实很不错,可以用于实际工作。

最后,说一点题外话。著名开发者 Simon Willison 最近说,评测大模型越来越困难,"我识别不出两个模型之间的实质性差异",因为主流的新模型都已经足够强大,足以解决常见任务,只有不断升级评测的难度,才能测出它们的强弱。

这意味着,对于普通程序员的常见编程任务,不同模型不会构成重大差异,没必要迷信国外的旗舰模型,国产模型就很好用。

(完)

AIPex 最新发布了新版本,其中最重要的能力之一,是浏览器任务可以在后台运行,而不打断用户的正常工作流

这一能力并非来自某个“技巧”,而是源于一个明确的工程选择:
我们有意识地避免将浏览器控制建立在 debugger ( Chrome DevTools Protocol )之上。

本文将解释为什么主流方案普遍选择 debugger ,以及 AIPex 为什么在多数智能代理与日常自动化场景中,选择了一条不同的路线。

为什么大多数浏览器控制方案选择 debugger ( CDP )

在当前无需迁移的浏览器自动化插件或 Agent 中,常见方案包括:

  • Manus 的 Manus Browser Operator
  • Claude 推出的 Claude in Chrome
  • 开源社区的 nano browser
  • 以及 Puppeteer / Playwright 等自动化工具的扩展形态

这些方案通常基于 Chrome DevTools Protocol ( CDP ),尤其是其 debugger 能力来实现浏览器控制,原因并不复杂:

1. 能力覆盖完整

CDP 提供了浏览器内部几乎所有关键能力,包括:

  • 页面导航与生命周期控制
  • DOM 与 AXTree ( Accessibility Tree )访问
  • 事件注入(鼠标、键盘、滚轮)
  • 网络拦截与修改
  • 截图、录屏、性能采样

对于复杂自动化而言,CDP 是一个“开箱即用”的全能力接口。


2. 可访问性树( AXTree )高度语义化

通过 CDP ,可以直接获取浏览器构建的 Accessibility Tree

  • 每个节点都具备 role / name / state
  • 天然适合语音辅助与 AI 理解
  • 在理想 ARIA 实现下,语义质量很高

因此,AXTree 成为了许多 AI Agent 的主要页面表达形式。


3. 工程生态成熟

围绕 CDP 已经形成成熟工具链:

  • Puppeteer 、Playwright 等底层实现
  • 完整的文档、示例与社区经验
  • 对自动化工程师而言,学习与接入成本明确


debugger ( CDP )在桌面场景中的现实代价

尽管 CDP 能力强大,但在“与用户并行工作的桌面场景”中,它也带来了一些难以忽视的问题。

1. 前台焦点与用户体验问题

CDP 并非以“后台无打扰”为设计目标。

在真实桌面环境中:

  • debugger attach 往往会触发 Tab 激活或窗口前置
  • 输入与视觉焦点可能被强制抢占
  • 即使通过 headless 或参数规避,也难以在不同平台与浏览器上保证一致行为

结果是:
当用户正在使用其他应用或标签页时,自动化任务可能打断其当前操作,严重影响体验。


2. 浏览器与运行环境耦合

使用 CDP 通常意味着:

  • 需要启用调试端口
  • 强绑定 Chrome / Chromium
  • 对部分嵌入式 WebView 、受限环境或非 Chromium 浏览器支持不佳

在企业环境或多浏览器生态中,这种耦合会显著增加部署与维护成本。


3. 安全与权限摩擦

调试端口、进程权限、证书配置等问题,在企业与受管环境中常常触发:

  • 安全策略拦截
  • 合规审查
  • IT 运维阻力

这类问题并非技术不可解,而是部署摩擦成本过高


为什么浏览器控制不一定需要 debugger

AIPex 的核心设计目标是:

让浏览器任务像“背景思考”一样运行,而不是像“远程操控”一样打断用户。

为此,我们选择了一条不以 debugger 为中心的路径。


AIPex 的方案:DOM 语义快照 + 轻量交互

在页面侧,AIPex 采用纯 JavaScript / TypeScript 能力,实现:

  • 语义化页面快照
  • 稳定节点映射
  • 轻量级事件交互

而不是依赖 CDP 的 AXTree 与调试通道。

1. 语义快照,而非调试树

AIPex 基于 @aipexstudio/dom-snapshot

  • 直接遍历 DOM Tree
  • 提取可访问性相关语义( role / name / state )
  • 不依赖 CDP 的 Accessibility Tree ( AXTree )

该库在 README 中明确说明:
它是一个纯 DOM 方案,而非 CDP 的替代封装。


2. 稳定、可复用的节点 ID

自动为页面元素生成稳定的:data-aipex-nodeid

这使得:

  • “语义快照中的节点”与“真实 DOM 元素”之间的映射可长期复用
  • 避免调试态下常见的选择器漂移问题
  • 支持从文本命中直接反查到可操作元素


3. 面向可交互对象的快照策略

语义快照优先关注:

  • 按钮、链接、输入框等可操作元素
  • 对话与任务相关的界面子集

并过滤:

  • display: none
  • visibility: hidden
  • aria-hidden
  • inert

从而避免将无意义或不可见节点暴露给 Agent 。


4. 文本化表达与语义搜索

快照可被转换为可朗读、可搜索的文本形式( TextSnapshot ):

→uid=dom_abc123 RootWebArea "My Page" <body>
uid=dom_def456 button "提交" <button>
uid=dom_ghi789 textbox "邮箱" <input> desc="请输入邮箱"
StaticText "欢迎回来"
*uid=dom_jkl012 link "了解更多" <a>

其中:

  • 表示当前聚焦元素

→ 表示焦点祖先

该表示既适合 TTS / 语音播报,也支持自然语言驱动的检索。

  1. 语义搜索示例
    支持管道分隔与 glob 搜索:
searchSnapshotText(formatted, '登录 | Login | Sign In');
searchSnapshotText(formatted, 'button* | *submit*', {
  useGlob: true,
  contextLevels: 2
});

命中的文本行可通过 data-aipex-nodeid 精确映射回 DOM 元素。

  1. 页面侧事件,而非调试注入

交互通过页面侧事件完成(如 click 、focus 、input ):

  • 通过内容脚本或扩展消息通道触发

  • 与后台任务调度通信

  • 无需调试端口

  • 不强制拉起前台窗口

网页语义表达的工程视角

在浏览器自动化与 AI Agent 场景中,最常被用作页面表达的主要有两类:

DOM Tree

来源:浏览器原生文档对象模型

特点:信息完整但冗余,语义弱

直接使用不利于 AI 理解与操作

Accessibility Tree ( AXTree )

来源:ARIA 语义派生

特点:高度语义化

局限:

  • 依赖站点 ARIA 实现质量

-节点信息并不完备

  • 远程访问通常依赖 CDP

在实践中,如果完全依赖 AXTree ,Agent 的“感知能力”往往受限于目标网站的可访问性水平——这在现实 Web 中并不理想。

AIPex 的选择与边界

通过对 DOM Tree 进行语义化处理,AIPex 在不依赖 debugger 的前提下,实现了:

  • 后台运行、不打断用户

  • 更完整的页面信息表达

需要说明的是:

对于涉及浏览器特权能力的场景(如网络拦截、性能采样、权限弹窗、文件系统访问等),CDP 仍然具有不可替代的价值。

AIPex 并非否定 debugger ,而是在日常自动化与智能代理场景中,优先选择对用户体验更友好的工程解法。

参考与来源

这里记录每周值得分享的科技内容,周五发布。([通知] 下周元旦假期,周刊休息。

本杂志开源,欢迎投稿。另有《谁在招人》服务,发布程序员招聘信息。合作请邮件联系[email protected])。

封面图

哈尔滨19米大雪人,完工之前的样子。(via cgtn@instagram

《硅谷钢铁侠》摘录

最近,我读了一本十年前的马斯克传记《硅谷钢铁侠》(中信出版社,2016)。

按理说,这本书已经过时了,这十年马斯克发生太多事情了。

我是睡觉前随手拿起来,翻了几页,看得津津有味,就读完了。

这本是马斯克的授权传记,他本人亲自接受了采访,还挺有料的。而且,因为我已经知道后续的发展,所以读到十年前的采访,反而有更多启发。

他的人生确实传奇,白手起家,家里给的最大帮助就是从南非移民到加拿大,后面都是自己奋斗出来的。

他创立了 Paypal,然后把卖掉它的钱拿来又创办了三家公司:特斯拉、SpaceX 和 SolarCity。

这太疯狂了,他一个外行同时进入了三个不同的行业----电动汽车、宇宙航天和太阳能----这些行业都刚萌芽,没有任何个人创业成功的先例。

更疯狂的是,他居然把这三家公司都做成了,而且都做到了世界第一(SolarCity 后并入特斯拉),他也因此变成了世界首富,你说神奇不神奇。

读完全书,我的最大感受是,还是要动手做事,没准真能做成。想他人不敢想,做他人不敢做。即使最狂野的梦想,只要全心投入,用力去做,也是有可能成功的。

下面就是我的一点摘录。

(1)

特斯拉最艰难的时候,非常接近于破产倒闭。

马斯克对外宣传,特斯拉是一家汽车公司,但实际上,他们只是一群年轻人租了一间大厂房,更像是在捣鼓汽车的大型实验室。

(2)

马斯克非常不理解,为什么有人设计了车灯开关。

他说:"真是多此一举。天黑时车灯自动打开,就这么简单。"

(3)

特斯拉的第一版设计稿,因为设计师没想好门把手的形状,就没画上去。

没想到马斯克很喜欢这个没有门把手的车型,就决定门把手应该在有需要的时候自动弹出。

(4)

马斯克认为,未来会有人口危机,主张多生孩子。

他认真考虑了,怎么在特斯拉后排安装婴儿座椅。传统的车门设计,使得把婴儿座椅和小孩安置在后排非常不方便,所以特斯特的车门设计采用了"鹰翼门"。

(5)

特斯拉的第一款车型是跑车,但没有大量生产。真正大量生产的第一款车型是 Model S,最初的名字是 Model Sedan。

Sedan 这个词的意思就是轿车,用来跟跑车相区别。但是马斯克认为这个词太平淡了。英国人习惯称轿车为 Saloon,这听上一样不伦不类。最后,就索性只保留第一个字母,称为 Model S。

(6)

马斯克对员工的要求是,全情投入你的工作,并把事情搞定。

不要等待上级的指导和详细指示,也不要等待别人的反馈意见,你要主动想办法把工作完成。

(7)

他认为,一个人独立工作,是最佳的工作状态。

一个人不需要开会、不需要与谁达成共识,也不需要在项目中帮助其他人。你一个人就可以持续地工作、工作、再工作。

(8)

特斯拉员工最害怕的事情,就是向马斯克申请额外的时间或者经费。

你一定要事先做好详细准备,跟他解释为什么必须招更多的人,以及需要追加的时间和资金预算。如果有招聘目标,还要准备那个人的简历。

(9)

如果你一上来就告诉马斯克,某件事情做不了,他会马上把你轰出办公室,甚至可能当场解雇你。

在马斯克看来,某件事办不成的唯一原因,就是违背了基本的物理原理。但是即使这样,你也必须做足了功课,深入每一个技术环节,向他解释为什么行不通。

(10)

马斯克要求员工,项目没完成之前,周六和周日依然要努力工作,并睡在桌子底下。

有些人反对,表示员工也需要休息,有时间陪陪家人。

马斯克说:"我们破产之后,你们会有大量时间陪家人。"

(11)

马斯克有自己计算时间价值的方法。他预期10年后,公司的日营收可以达到1000万美元,所以进度每拖延一天,就相当于多损失1000万美元。

(12)

马斯克的根本想法是改变这个世界,他总是喜欢谈论人类的生存问题。

早在他开始创业的时候,就已经得出了结论,那就是生命是短暂的。如果你真的意识到这一点,你就会知道,活着的时候工作越努力越好。

科技动态

1、黑色圣诞卡

爱沙尼亚交通警察向800多名危险驾驶者,寄送了黑色圣诞卡,提醒他们新的一年必须安全驾驶。

这些人都是过去违反交通规则的司机,最常见的问题是超速和不系安全带。

圣诞卡上是一起交通事故的现场,黑漆漆的深夜,天空中有明亮的月亮,公路上有交通事故后的车辆残骸,远处还有车灯的亮光。

一个有趣的统计是,虽然人们常说女司机是"马路杀手",但是这800多个危险驾驶者里面,只有33名女性。

2、2025全球互联网报告

世界最大 CDN 服务商 Cloudflare,发布了《2025全球互联网报告》,公布了它的统计数据。

2025年,全球互联网流量上升19%,由于网民数量基本没变,所以多出来的流量来自 AI 爬虫。

流量最大的前10大互联网服务:谷歌、脸书、苹果......

移动流量中,苹果设备占35%,安卓设备占65%。

浏览器排行是,Chrome 66%,Safari 15.4%,Edge 7.4%。

3、违停巡逻车

上海警方启用无人驾驶的违章停车巡逻车。

这辆小车自动在马路上巡逻,对路面进行抓拍。

一旦发现违停车辆,它就会识别车牌,将其上传警务系统,系统后台会发送提醒短信给车主,要求在12分钟内驶离。

12分钟后,小车就会返回点位进行检查,将相关信息回传后台,并经民警审核后开罚单。

据报道,12月18日一天,它共发现违停车辆119辆次。

4、室内过山车

一家瑞典的创意工作室,在他们的办公室建造了世界唯一的室内过山车。

这个过山车途径办公室的各个角落,总长60米,最高的地方距离地面有3米。

坐上这个过山车,你就能游览一圈办公室,看到同事们在干什么。

工作室负责人说,建造它的目的是"促进员工之间的互动,以及打破常规,培养创造力。"

文章

1、分布式架构的演化(英文)

本文将分布式架构分成三种:P2P、联邦式(比如 Mastodon)、中继式(比如 Nostr)。作者认为,对于大型分布式应用,中继式架构才是未来方向。

2、什么是 GitHub 自托管 Runner?(中文)

GitHub Actions 有一个 self-hosted runner 功能,让 action 运行在你自己的服务器。本文详细介绍它的概念、原理,并结合案例进行实践。(@luhuadong 投稿)

3、CSS Grid Lanes 布局(英文)

浏览器开始支持 CSS 的 Grid Lanes 布局了,大大方便了瀑布流的实现。

4、6502 指令集适用汇编语言初学者(英文)

6502 是一块诞生于1975年的 CPU,很多早期电脑(比如 Apple II)都使用它。作者解释,为什么你应该用它,作为学习汇编语言的第一个指令集。

5、你应该多用/tmp目录(英文)

作者提出,Linux 系统的/tmp目录用起来很方便,完全可以把它当作自己的临时性目录。

6、中国的清洁能源战略(英文)

《纽约时报》驻华记者的长文,体验当代中国的生活,比如无人驾驶、无人机送餐,他说"感觉像生活在未来"。

工具

1、MADOLA

一种新的数学脚本语言,像编程一样写数学公式,可以编译成 HTML 格式作为文档,也可以编译成 C++ 或 WebAssembly 直接运行。(@AI4Engr 投稿)

2、CattoPic

一个基于 Cloudflare Worker 的图片托管服务,将图片上传到 Cloudflare 进行推过,支持自动格式转换、标签管理。(@Yuri-NagaSaki 投稿)

3、termdev

直接在终端,通过连接 Chrome Devtool 调试网页。(@taotao7 投稿)

4、tui-banner

为 Rust 语言的命令行项目添加一个横幅图案。(@coolbeevip 投稿)

5、Alertivity

macOS 菜单栏的资源监控工具,监控 CPU、内存、磁盘、网络和进程活动。(@nobbbbby 投稿)

6、cpp‑linter

C/C++ 代码的静态检查工具,可以接入 CI/CD 流程,简化代码质量管理。(@shenxianpeng 投稿)

7、Rote

开源的 Web 笔记软件,需要自己架设。(@Rabithua 投稿)

8、Infographic

JS 的数据可视化框架,用于在网页生成各种信息图,内置200多种模板。(@Aarebecca 投稿)

9、Clock Dashboard

天气时钟看板,适合老旧的电子设备再利用。(@teojs 投稿)

10、离线版问卷

开源 Web 应用,用来设计和托管调查问卷/报名表。(@chenbz777 投稿)

11、Xget

基于边缘计算(如 Cloudflare Workers/Vercel/Netlify)的加速引擎,可以加速程序员网站的访问速度,比如将github.com域名替换成xget.xi-xu.me/gh。(@xixu-me 投稿)

12、BoxLite

一个 Python 库,可以在脚本中运行一个微型虚拟机,提供硬件隔离。(@DorianZheng 投稿)

13、Green Wall

生成你的 GitHub 年度报告。(@Codennnn 投稿)

14、edge-next-starter

面向出海项目的 Next.js + Cloudflare 全栈项目模板,集成 Edge Runtime、D1 数据库、R2 存储。(@TangSY 投稿)

AI 相关

1、Chaterm

带有 AI 功能的智能终端工具,可以用自然语言完成命令行操作。(@zhouyu123666 投稿)

2、miniCC

网友开发的 AI 编程工具 Claude Code 替代品,主要用于学习目的。(@Disdjj 投稿)

3、Android Trans Tool Plus

一个开源的纯前端应用,通过 AI 翻译安卓资源文件,支持多语言同步、差异校验。(@huanfeng 投稿)

4、octopus

个人用户的大模型 API 聚合工具,支持接入多个模型供应商,提供负载均衡、分组名称、使用量统计等功能。(@bestruirui 投稿)

5、Vexor

一个 Python 工具,对当前目录的文件进行向量嵌入,用来语义搜索。(@scarletkc 投稿)

6、Tada

开源的任务管理应用,带有 AI 总结功能。(@Leaomato 投稿)

资源

1、大模型原理(英文)

一篇相对好懂的大模型原理解释,文章不长,并且还有大量的互动图形,写得非常好,推荐阅读。

2、编程语言速度比较

这个网站使用不同的计算机语言,通过莱布尼茨公式计算 π 值,然后给出运行速度的排名,最快是 C++(clang++),最慢是 Python (CPython)。

3、更好的 ZIP 炸弹

这个网页提供三个 ZIP 炸弹文件的下载,其中最小一个只有 42KB,但是解压后的大小是 5.5GB。

图片

1、2025年最佳科学图片

《自然》杂志评选的一组2025年最佳科学图片。

两只争夺领地的青蛙。

南非废弃天文台长出的蘑菇。

2、帽子,乌龟和幽灵

2022年,一个业余数学家 David Smith 发现了一个有点像帽子的奇特形状。

这个形状的奇特之处在于,它可以无限不重复地铺满整个空间,且不形成周期性的重复图案。

不久后,他又发现了两种稍加变化的形状,称为乌龟和幽灵,也可以不重复地平铺平面。

下面就是这三种形状各自平铺的图案。

言论

1、

我使用氛围编程会感到疲惫,AI 生成代码的速度太快了,我的大脑跟不上,无法及时完成代码验收或审查。我必须休息一段时间,才能重新开始。

-- 《氛围编程疲劳》

2、

制造汽车是非常困难的一件事。一辆车大约有3万个独立零部件,公司可能只会采购3000个,因为像车头灯这样的部件,是作为一个整体采购的,但它实际上包含很多组件。

里面的二级、三级、四级供应商提供的零部件,任何一个出现问题都可能导致整车的问题。

-- 汽车创业公司 Rivian 的 CEO 专访

3、

数码世界的现状是,很多人(尤其是大多数老年人)已经放弃了抵抗,任由电子设备将他们带到任何地方。

因为一旦你想搞清楚电子设备的运作,就会发现,在便利的幌子下,一切都充满了敌意,暗箱操作无处不在,不可能完全理清。你想从它们手中夺回个人数据和隐私会非常艰苦,而且注定失败,最终只会带来更大的挫败感。

-- 《一切并非必然》

4、

现在的学生拥有前所未有的优质教育资源,但他们却陷入成千上万种选择中不知该学什么、该用什么资源的困境。拥有资源并不意味着就能找到方向。

-- 《不要关闭你的大脑》

5、

危险并非来自中国的崛起,而是美国的思维模式。如果把科学视为零和博弈,那么每一项中国专利看起来都像是美国的损失。但创意是非竞争性的:中国的科研突破不会让美国人变穷,而是会让世界变得更富有。多极化的科学世界意味着更快的增长、更大的财富和加速的技术进步。

-- 《中国的创新》

往年回顾

西蒙·威利森的年终总结,梁文锋的访谈(#332)

电动皮卡 Cybertruck 的 48V 供电(#282)

好用的平面设计软件(#232)

新人优惠的风险(#182)

(完)

这里记录每周值得分享的科技内容,周五发布。

本杂志开源,欢迎投稿。另有《谁在招人》服务,发布程序员招聘信息。合作请邮件联系[email protected])。

封面图

中法合作的一个艺术项目《挑战第841次》,让路过的行人在黄浦江边的一个玻璃亭子里,弹奏法国作曲家的一个钢琴作品。(via

为什么人们拥抱"不对称收益"

前两周,我跟大家说,美国现在最流行"预测市场"。我当时没有统计数字,现在有了。

2025年11月,美国前两大预测市场---- PolymarketKalshi ---- 一共成交了超过100亿美元。

看这个数字,大家可能没感觉。作为对比,美国全国的体育彩票,2024年的销售额是137亿美元。

这就是说,预测市场一个月的交易量,接近了体育彩票全年的销售额。要知道,这两个网站6年前都还不存在!

这么恐怖的增长速度,难怪美国各大公司现在都想挤入这个市场,分一杯羹。

预测市场就是变相的网络彩票,它的火爆只能说明一件事情,美国正出现疯狂的"彩票热"。

本周,我看到一篇文章(上图),一位风险投资家分析这个现象。我想分享他的观点,他认为,预测市场火爆的根本原因,是社会心态的焦虑和绝望

(1)财富转移机制失效了,通过正常工作致富,越来越不可能。工资的增长速度,低于消费的增长速度,个人债务正在变多。

虽然资产的价格(比如股票、黄金、房产)也在上涨,但只是让那些拥有资产的人受益,对于没有这些资产的穷人,只是变得更贫穷。

(2)传统的人生模式也失效了。以前的模式是,找一家大公司,每天按时上班,努力工作,对公司忠心耿耿,坚持多年就会得到回报。你会收到公司的奖励,退休后还有养老金。

这种模式现在行不通了。公司的经营短期化,能存活20年的公司并不多,更不要说你的岗位了。一旦失去现在的工作,再次就业非常困难,以前的工作经验很可能用处不大。

(3)AI 的出现,加剧了前两种情况的发展速度。AI 让一切加速了,压缩了时间。以前,你有五年的时间奋斗,AI 让你感到必须在一年里拿到结果,否则就可能为时已晚。

(4)社交媒体则使得人们永远不会对现状满意。

以前,你的参照群体只是周围人群,现在的参照群体是全世界。你每天看到的都是收入高、赚钱容易、生活优渥的人群,永远会让你感到自己的生活不够好,而无论你已经取得了怎样的成就。

(5)结果就是,越来越多的人失去了耐心,不再相信长期投入,不再幻想长期的劳动积累会通往圆满的人生,社会也不奖励耐心。

为什么要苦苦奋斗20年,去争取10年后可能根本不存在的晋升机会?我要的是一条快速的道路,摆脱日常生活的困境,而且越快越好。

(6)这种心态下,人们的风险偏好发生了变化。为了快速摆脱困境,在风险更大的选项上放手一搏,成了合理的选择

即使只有5%的希望,也比100%的停滞不前更有吸引力。这就是彩票在贫困社区更畅销的原因。

这在经济学上称为"不对称收益"(asymmetric returns),就是风险和收益不对称。失败的可能性很大,但只会损失一小笔钱,成功的可能性很小,但是一旦成功,就会获得巨大收益,简单说就是"小亏大赚"。

追求不对称收益,已经成了一种普遍的心态。它推动了前几年的加密货币和 NFT 的热潮,现在又推动了预测市场。

可以确定,凡是能够产生"不对称收益"的事情,今后都会迅速成为热点。

新人上手 Claude Code 的简单方案

AI 编程工具,我用的是 Claude Code。以前推荐过,非常好用,功能很强。

我现在依然这样认为,但是必须说,Claude Code 不适合所有人,有使用门槛

它要求用户熟悉命令行,而且 Windows 安装不方便,需要启用 Linux 子系统 WSL。另外,如果在外面,没有自己的计算机,临时想用一下,也很麻烦。

元旦的时候,我在广东听说,有人做了"云端 Claude Code 客户端",解决了这些痛点,就很感兴趣。

他们团队叫做 302.AI,我以前就有接触。他们做云端服务很多年了,现在专注于 AI 模型接入。大家可以去官网看一下,用他们的 API 能够接入几乎所有主流模型,数量有几百个。

他们跟我一样,也感到 Claude Code 的诸多不便,就想能不能再开发一个它的客户端,封装所有复杂性,提供最好用的 AI 编程体验。

(1)跨平台桌面应用。他们提供 Win/Mac/Linux 安装程序,通过桌面窗口去使用云端的 Claude Code。

(2)零配置的云端沙盒。云端的 Claude Code 预装在一个沙盒里,集成了 Node.js、Python、Git、CMake、build-essential 等开发工具,不需要任何本地环境配置,开箱即用。

同时,沙盒也保障了安全,跟本地电脑是隔离的,AI 就不会误删本地文件。

(3)对话界面。对于不习惯命令行的用户,他们提供对话式交互界面(Chat UI),以聊天方式完成编程。

(4)随意更换模型。Claude Code 更换底层模型,需要配置环境变量,他们的客户端不需要这么麻烦,只需要鼠标选中即可。

你可以直接用他们的 API,也可以配置自己的 API Key。

(5)一键部署。他们还提供了部署功能,AI 生成的结果可以一键发布到公网,直接访问,无需购买服务器或配置域名。

可以说,这个方案完全针对 Claude Code 的各种痛点,目标是打造新手最容易上手的 Vibe Coding 工具。

感兴趣的朋友可以去 studio.302.ai 下载,体验一下。(提醒:使用前需要注册/登录 302.AI 账号。)

科技动态

1、乔布斯写的程序

乔布斯创立苹果公司之前,当过短时间的程序员。1975年,他20岁,从大学退学后,进入雅达利公司写电子游戏。

人们一直不知道,他的编程水平如何,现在终于曝光了。

本周,乔布斯的一些个人档案公开拍卖,其中就有当年他写的程序,打印纸上还有他的亲笔注释。

有人把这个程序还原出来,放到虚拟机上跑,终于让我们看到了乔布斯的软件作品。

这个程序叫做 AstroChart,跟星座有关。用户提供出生的时间地点,它会显示太阳系主要天体的位置。

从代码来看,乔布斯的编程水平可以,他使用三角函数计算行星位置,并且绕过当年硬件没有双精度浮点数的限制,用整数除法代替。

2、世界最大电动船

澳大利亚建造了世界最大的电力轮船,长度130米,里面的电池重达250吨。

这艘船将用作阿根廷与乌拉圭之间的轮渡,可以搭载多达2100名乘客和225辆汽车。

这艘船不仅是史上最大的电动船,可能也是史上最大的电动装置,一次可以携带超过4万度电。

3、最高过山车

2025年的最后一天,沙特阿拉伯在距离首都利雅得40分钟车程的地方,开张了一个乐园。

这个乐园有27个游乐设施,很多都是世界之最,其中就有目前世界最高的过山车。

这个过山车高达195米,相当于60层楼,比先前的世界纪录高出了55米。

整个过山车的长度是4.2公里,最高速度可以达到240公里/小时,全程只有3分多钟。

网上有很多这个过山车的视频,不要说坐在车上,就是看视频都觉得惊心动魄。

文章

1、2025年大模型回顾(英文)

西蒙·威利森(Simon Willison)的 AI 年度回顾,过去一年的大事件基本都提及了,总结和评点得非常好,推荐阅读。

2、华为的 5nm 制程怎么样?(英文)

这是一家美国技术媒体对华为麒麟9030芯片(搭载于最新的 Mate 80 手机)的分析文章。

该文认为,该芯片比早先的 7nm 制程有提升,是大陆制造的最先进芯片,但从跑分看,还没达到台积电的 5nm 水平。文章有中文版

3、Opus 4.5 将会改变一切(英文)

作者不相信 AI 会取代程序员,直到遇到 Anthropic 公司的 Opus 4.5 模型。本文是他的4个项目的编程体会,他现在确信程序员会被替代。

4、HTTP caching, a refresher(英文)

对于 HTTP 缓存机制的一个总体介绍,梳理浏览器缓存的处理逻辑。

5、Vitest 的浏览器模式介绍(英文)

JS 测试框架 Vitest 4.0 引入了浏览器模式,可以进行浏览器自动化,类似于 Playwright,进行 UI 测试,本文是一个简单介绍。

6、如何提高 JS 数组的读写速度(英文)

一篇 JavaScript 中级教程,介绍通过为 JS 数组分配连续内存,提高数组的读写速度。

工具

1、ZenOps

一个命令行工具,在本地终端里查询阿里云/腾讯云等云平台的运行数据,并提供钉钉、飞书、企微机器人,进行自然语言查询。(@eryajf 投稿)

2、白虎面板

轻量级的服务器定时任务管理系统,适合低配置的服务器。(@engigu 投稿)

3、OnlinePlayer

一个网页播放器,可以播放本地视频和云盘视频。(@13068240601 投稿)

4、gitstats

命令行工具,生成 Git 仓库的统计数据。(@shenxianpeng 投稿)

5、云图

一个极简风格的图床,可以搭建到自己的 NAS,提供灵活的 API。(@qazzxxx 投稿)

6、KeyStats

开源的 macOS 小工具,对按键行为进行统计。(@debugtheworldbot 投稿)

7、py2dist

这个工具可以将 Python 脚本编译成二进制模块,方便隐藏源码。(@xxnuo 投稿)

8、Stream Panel

Chrome 浏览器开发者工具的一个扩展,用来调试服务器发送事件 (SSE) 和 Fetch 的流式连接。(@bywwcnll 投稿)

9、Zedis

Redis 的图形客户端,跨平台的桌面应用,不使用 Electron,而是使用 Rust + GPUI,性能更好。(@vicanso 投稿)

10、QDav

这个网站可以为夸克网盘加入 WebDAV 协议,从而挂载到网盘播放器来播放夸克网盘的视频。(@ZhouCai-bo 投稿)

11、XApi

开源的 Chrome 浏览器插件,自动捕获当前网页的 Fetch 与 XHR 网络请求,支持改写 Cookie、Origin、Referer 字段,方便开发调试。(@lustan 投稿)

12、PDFCraft

纯浏览器的 PDF 开源工具集,目前有80多个工具。(@pccprint 投稿)

AI 相关

1、Open-AutoGLM

智源公司的开源安卓应用,使用自然语言,让 AI 操作手机,进行手机自动化,可以接入各种模型,无需电脑端。(@Luokavin 投稿)

2、Claude-Ally-Health

一个基于 Claude Code 的个人医疗数据中心,定义了一组自己的命令和技能,用 AI 分析个人医疗数据(体检报告、影像片子、处方单、出院小结)。(@huifer 投稿)

3、灵猫

免费的 AI 图片去水印网站,但只是去除视觉水印,嵌入的数字水印还在。(@pangxiaobin 投稿)

4、DeepDiagram AI

开源的 AI 应用,用自然语言驱动内置的 mermaid、echarts、mindmap、Draw.io 等绘图工具生成图表。(@twwch 投稿)

资源

1、100万首页截图

这个网站收集了100万个热门网站的首页截图,将它们做在一个页面,可以放大查看。

2、Emulator Gamer

各种老游戏机的经典游戏,通过模拟器免费在线游玩。(@SinanWang 投稿)

图片

1、如今的 Mozilla

Mozilla 浏览器的新任 CEO 宣称,公司的发展方向是AI 浏览器

这让 Mozilla 社区感到担忧,因为没人是为了 AI 而使用它。一位使用者就画了下面这张图。

Mozilla 的吉祥物----一只小狐狸拿着锯子,把自己正坐着的树枝锯断,旁边还有一只鸟,为它递上更锋利的电动锯子,上面写着"AI"。

这张图比喻 Mozilla 一直在自寻死路,全力转向 AI 只会死得更快。

文摘

1、外卖应用的秘密

我是一个大型外卖应用的开发者,受一项严格的保密协议约束。但是,我已经不在乎了,我昨天向公司递交了离职报告。

说实话,我希望公司能起诉我,这样一来,这些事情就会曝光。

我已经消极工作大约八个月了,只是看着代码被推送到生产环境。一想到自己参与了这台机器,我夜里都睡不着。

人们总怀疑算法对用户不利,现实比这更糟。我是一名后端工程师,每周参加产品会议,产品经理(PM)讨论如何才能挤出额外0.4%的利润,他们把用户当成有待开发的资源。

公司有一个"优先配送"服务,你多付2.99美元,就可以更快拿到外卖。这完全是个骗局,根本没有加快派送的速度,而是人为把非优先订单延迟5到10分钟,让你感觉优先订单更快。我们仅仅通过让标准服务变差,就赚取了数百万美元的纯利润,而不是真正改善服务。

最让我恶心的是"绝望分数",这是一个隐藏的外送员指标,根据外送员的行为判断他们多想赚钱。

如果外送员在晚上10点登录系统,毫不犹豫地立即接下每一个3美元的垃圾订单,算法会将他们标记为"高度绝望"。一旦被标记,系统就会停止向他们显示高价订单,理由是"既然我们知道他绝望到愿意接受3美元,为什么还要让他看到15美元的订单呢?"。系统把高价订单留给"休闲"外送员,即那些不愿接低价单的外送员,吸引他们接单,而全职外送员则被碾压成尘埃。

公司还会从用户的账单扣除一笔1.50美元的"外送员福利费",这个名字让用户感觉在帮助外送员。实际上,这笔钱流入了游说反对外送员成立工会的基金,这是公司用于"政策防御"的费用。用户实际上是在为那些高端律师付费,那些律师为削弱外送员的权益而工作。

最后,虽然公司不再从外送员的小费里面提成,因为被起诉过,但是使用其他方法窃取小费。

如果算法预测你是"可能支付小费的用户",而且你很可能会给10美元小费,那么公司只会给外送员可怜的2美元基本派送费。如果你给了0美元小费,公司会给外送员8美元的基本派送费。结果是用户的小费并没有奖励外送员,而是在补贴公司。用户给外送员付工资,这样我们就不用付了。

言论

1、

在美国东海岸(纽约和华盛顿),人们会问:"中国是否就要失败了",而在西海岸(洛杉矶和旧金山),人们更倾向于问:"万一中国成功了会怎样?"

这一定程度上反映了硅谷的特点:更注重收益最大化,而非风险最小化。东海岸的问题也值得认真对待,但过分关注中国是否失败,会助长一种美国无需做出任何改变就能击败对手的论调,从而削弱美国改革的紧迫性。

-- Dan Wang《2025年度信件》

2、

如果美国或中国在某个方面落后太多,落后者就会奋起直追。这将是未来数年甚至数十年世界变化的动力。

-- Dan Wang《2025年度信件》

3、

程序员对待 AI 有两种态度:一种以结果为导向,渴望通过 AI 更快拿到结果;另一种以过程为导向,他们从工程本身获得意义,对于被剥夺这种体验感到不满。

-- Ben Werdmuller

4、

AI 数据中心的建设热潮,导致内存价格暴涨,进而产生一系列连锁反应。

手机和电脑厂商别无选择,只能提价。我们估计,2026年全球的手机市场和电脑市场都会萎缩。手机萎缩2.9%到5.2%,电脑萎缩4.9%到8.9%。

-- IDC 公司的预测

5、

eSIM 手机卡一旦更换就可能失效,相比之下,实体 SIM 卡可以随意插上插下,几乎不会出现故障。推广 eSIM 的后果就是,手机号丢失的事件会大大增多。

-- 《我后悔使用 eSIM》

往年回顾

一切都要支付两次(#333)

没有目的地,向前走(#283)

生活就像一个鱼缸(#233)

腾讯的员工退休福利(#183)

(完)

数以万计的摄像头未能修补一个已存在11个月的关键CVE漏洞,导致数千家机构面临风险。

最新研究表明,目前全球超过8万台海康威视监控摄像头易受一个已存在11个月的命令注入漏洞影响。

海康威视(杭州海康威视数字技术股份有限公司的简称)是中国国有视频监控设备制造商。其客户遍布100多个国家(包括美国,尽管美国联邦通信委员会在2019年将海康威视列为"对美国国家安全构成不可接受的风险")。

去年秋季,海康威视摄像头中的命令注入漏洞以CVE-2021-36260的形式公之于众。美国国家标准与技术研究院(NIST)给该漏洞打出了9.8分(满分10分)的"严重"评级。

尽管该漏洞危害严重,且事件已发生近一年,仍有超过8万台受影响的设备未安装补丁。在此期间,研究人员发现"多起黑客试图合作利用海康威视摄像头命令注入漏洞的案例",特别是在俄罗斯暗网论坛上,泄露的登录凭证已被公开出售。

目前已造成的损害程度尚不明确。报告作者仅能推测:"中国威胁组织如MISSION2025/APT41、APT10及其附属组织,以及未知的俄罗斯威胁行为者团体,可能利用这些设备中的漏洞来实现其动机(可能包括特定的地缘政治考量)。"

物联网设备的风险

面对此类事件,人们很容易将软件未打补丁归咎于个人和组织的懈怠。但实际情况往往更为复杂。

Cybrary威胁情报高级总监David Maynor指出,海康威视摄像头存在漏洞有多重原因,且已持续一段时间。"他们的产品存在易被利用的系统性漏洞,更糟糕的是使用默认凭证。没有有效方法进行取证或验证攻击者是否已被清除。此外,我们尚未观察到海康威视在开发周期中表现出任何提升安全性的态势转变。"

许多问题是行业通病,并非海康威视独有。Comparitech隐私倡导者Paul Bischoff通过电子邮件声明写道:"像摄像头这样的物联网设备的安全防护,并不总是像手机应用程序那样简单直接。更新不是自动的;用户需要手动下载安装,而许多用户可能永远收不到更新通知。此外,物联网设备可能不会向用户提示其处于不安全或过时状态。手机会在有更新时发出提醒,并在下次重启时自动安装,而物联网设备不提供这种便利。"

在用户毫不知情的情况下,网络犯罪分子可以通过Shodan或Censys等搜索引擎扫描其易受攻击的设备。Bischoff指出,懈怠可能使问题进一步恶化:"海康威视摄像头出厂时仅配备少数预设密码之一,而许多用户不会更改这些默认密码。"

在安全防护薄弱、能见度和监管不足的情况下,这数万台摄像头何时(或是否)能得到安全保障尚不可知。

Lockbit无疑是今夏最猖獗的勒索软件组织,Conti组织的两个分支紧随其后。

在近期短暂回落后,勒索软件攻击再度抬头。根据NCC Group发布的数据,此次复苏主要由老牌勒索软件即服务(RaaS)组织主导。

研究人员通过"主动监控各勒索软件组织使用的泄密网站,并在受害者信息发布时即时抓取"收集数据,最终确定Lockbit是7月份最活跃的勒索软件团伙,共发起62次攻击。这比前一个月增加了10次,更是排名第二和第三活跃组织攻击总数的两倍以上。报告作者指出:"Lockbit 3.0保持着最具威胁性勒索软件组织的地位,所有机构都应提高对其的警惕。"

攻击数量排名第二和第三的组织分别是Hiveleaks(27次攻击)和BlackBasta(24次攻击)。这些数据表明这两个组织均快速增长——自6月以来,Hiveleaks攻击量增长440%,BlackBasta增长50%。

勒索软件攻击的复苏与这两个特定组织的崛起很可能存在密切关联。

勒索软件为何反弹

NCC Group研究人员统计到7月份共有198起成功的勒索软件攻击事件,较6月增长47%。尽管增幅显著,但仍未达到今年春季的高峰水平——3月和4月每月攻击事件均接近300起。

为何出现波动?

今年5月,美国政府加强打击俄罗斯网络犯罪,悬赏1500万美元征集当时全球头号勒索软件组织Conti的关键信息。报告作者推测:"威胁行为体可能正在进行结构调整,并开始适应新的运作模式,导致其总体攻击量随之增加。"

Hiveleaks和BlackBasta正是这次重组的产物。报告指出这两个组织均"与Conti存在关联":Hiveleaks是其附属组织,BlackBasta则是其替代变种。"由此可见,Conti的势力似乎很快以新身份重新渗透到威胁环境中。"

作者推测,既然Conti已正式分裂为两个组织,"进入8月后这些数字进一步上升也不足为奇。"

超过130家公司卷入了一场仿冒多因素认证系统的广泛钓鱼攻击活动中。

针对Twilio和Cloudflare员工的定向攻击与一场大规模钓鱼活动有关,导致超过130个组织的9,931个账户遭到入侵。研究人员发现,这些攻击活动与身份和访问管理公司Okta被集中滥用有关,该威胁组织因此得名"0ktapus"。

"攻击者的主要目标是获取目标组织用户的Okta身份凭证和多因素认证(MFA)验证码,"Group-IB研究人员在最近的报告中写道,"这些用户收到了包含钓鱼网站链接的短信,这些网站模仿了其所在组织的Okta认证页面。"

受影响的企业包括114家美国公司,其他受害者还分布在68个其他国家。

Group-IB高级威胁情报分析师Roberto Martinez表示,攻击的范围仍是未知数。"0ktapus攻击活动取得了惊人的成功,其完整规模可能在一段时间内都无法确定。"

0ktapus黑客的目标

据信,0ktapus攻击者最初以电信公司为目标展开活动,希望获取潜在目标的电话号码。

虽然不确定攻击者如何获取用于MFA相关攻击的电话号码列表,但研究人员提出的一个理论是,0ktapus攻击者最初针对电信公司展开攻击。

"根据Group-IB分析的被入侵数据,攻击者最初以移动运营商和电信公司为目标展开攻击,可能从这些初始攻击中收集了电话号码,"研究人员写道。

随后,攻击者通过短信向目标发送钓鱼链接。这些链接指向模仿目标雇主使用的Okta认证页面的网页。受害者被要求提交Okta身份凭证以及用于保护登录安全的多因素认证(MFA)验证码。

在相关的技术博客中,Group-IB研究人员解释说,最初主要针对软件即服务公司的入侵只是多管齐下攻击的第一阶段。0ktapus的最终目标是访问公司邮件列表或面向客户的系统,以期促成供应链攻击。

在一个可能相关的事件中,在Group-IB上周晚些时候发布报告后的几小时内,DoorDash公司透露其遭受了具有0ktapus风格攻击所有特征的攻击。

影响范围:MFA攻击

DoorDash在一篇博客文章中透露:"未经授权的第三方利用供应商员工的被盗凭证访问了我们的一些内部工具。"据该文章称,攻击者随后窃取了客户和配送员的个人信息,包括姓名、电话号码、电子邮件和配送地址。

Group-IB报告称,在其攻击活动中,攻击者共窃取了5,441个MFA验证码。

"诸如MFA这样的安全措施可能看起来很安全……但很明显,攻击者可以用相对简单的工具克服它们,"研究人员写道。

"这又是一次钓鱼攻击,显示了对手如何轻易绕过所谓安全的多因素认证,"KnowBe4的数据驱动防御传播者Roger Grimes在通过电子邮件发表的声明中写道,"将用户从易受钓鱼攻击的密码转移到易受钓鱼攻击的MFA,根本没有任何好处。这是大量的艰苦工作、资源、时间和金钱,却没有获得任何收益。"

为减轻0ktapus式攻击活动的影响,研究人员建议保持良好的URL和密码卫生习惯,并使用符合FIDO2标准的安全密钥进行MFA。

"无论使用何种MFA,"Grimes建议,"都应该教育用户了解针对其MFA形式的常见攻击类型、如何识别这些攻击以及如何应对。我们在告诉用户设置密码时会这样做,但在告诉他们使用所谓更安全的MFA时却没有这样做。"

研究人员发现一起很可能由APT TA423发起的水坑攻击,该攻击试图植入基于JavaScript的侦察工具ScanBox。

一个来自中国的威胁行为体加大了分发ScanBox侦察框架的力度,其目标包括澳大利亚国内组织以及南海的离岸能源公司。这个高级威胁组织(APT)使用的诱饵是伪装成与澳大利亚新闻网站相关的定向信息。

根据Proofpoint威胁研究团队和PwC威胁情报团队周二发布的报告,这些网络间谍活动被认为始于2022年4月,并持续到2022年6月中旬。

研究人员认为,该威胁行为体是来自中国的APT TA423,也称为Red Ladon。报告指出:“Proofpoint以中等置信度评估,此活动可能归因于威胁行为体TA423 / Red Ladon,多份报告评估其在中国海南岛运作。”

该APT最近因一项起诉而闻名。研究人员表示:“美国司法部2021年的一项起诉评估认为,TA423 / Red Ladon为海南省国家安全部(MSS)提供长期支持。”

MSS是中华人民共和国的民事情报、安全和网络警察机构。据信其负责反情报、对外情报、政治安全,并与中国的工业和网络间谍活动有关。

重拾ScanBox

此次攻击利用了ScanBox框架。ScanBox是一个可定制、多功能的基于JavaScript的框架,攻击者用它来进行隐蔽侦察。

攻击者使用ScanBox已近十年,其值得注意之处在于,犯罪分子可以使用该工具进行反情报活动,而无需在目标系统上植入恶意软件。

PwC研究人员在提及先前的一次攻击时指出:“ScanBox尤其危险,因为它不需要成功将恶意软件部署到磁盘即可窃取信息——其键盘记录功能仅需网络浏览器执行JavaScript代码即可实现。”

攻击者可以不使用恶意软件,而是将ScanBox与水坑攻击结合使用。攻击者将恶意JavaScript加载到被入侵的网站上,ScanBox在该网站上充当键盘记录器,窃取用户在受感染的水坑网站上键入的所有活动。

TA423的攻击始于网络钓鱼邮件,标题诸如“病假”、“用户研究”和“请求合作”等。这些邮件通常伪装来自虚构组织“Australian Morning News”的员工。该员工恳求目标访问其“简陋的新闻网站”australianmorningnews[.]com。

研究人员写道:“点击链接并重定向到该网站后,访问者就会加载ScanBox框架。”

该链接将目标引导至一个网页,其内容复制自BBC和Sky News等真实新闻网站。在此过程中,它也传递了ScanBox恶意软件框架。

从水坑网站收集的ScanBox键盘记录器数据是多阶段攻击的一部分,使攻击者能够洞察潜在目标,从而有助于未来对他们发起攻击。这种技术通常被称为浏览器指纹识别。

初始的主要脚本会获取目标计算机的一系列信息,包括操作系统、语言和已安装的Adobe Flash版本。ScanBox还会检查浏览器扩展、插件以及WebRTC等组件。

研究人员解释说:“该模块实现了WebRTC,这是一种在所有主流浏览器上都支持的免费开源技术,允许网络浏览器和移动应用程序通过应用程序编程接口(API)进行实时通信(RTC)。这使得ScanBox能够连接到一组预配置的目标。”

研究人员解释,攻击者随后可以利用一种称为STUN(NAT会话穿越实用工具)的技术。这是一套标准化的方法,包括一个网络协议,允许交互式通信(包括实时语音、视频和消息应用程序)穿越网络地址转换(NAT)网关。

研究人员表示:“STUN由WebRTC协议支持。通过位于互联网上的第三方STUN服务器,它允许主机发现NAT的存在,并发现NAT为该应用程序的用户数据报协议(UDP)流向远程主机所分配的映射IP地址和端口号。ScanBox将使用STUN服务器实现NAT穿越,作为交互式连接建立(ICE)的一部分。ICE是一种点对点通信方法,用于让客户端尽可能直接通信,避免必须通过NAT、防火墙或其他解决方案进行通信。”

他们解释说:“这意味着ScanBox模块可以建立与STUN服务器的ICE通信,并与受害机器通信,即使它们位于NAT之后。”

威胁行为体

Proofpoint威胁研究与检测副总裁Sherrod DeGrippo在一份声明中解释道,这些威胁行为体“在涉及南海的事务上支持中国政府,包括近期台湾紧张局势期间。该组织特别想了解谁在该地区活动,虽然我们无法确定,但他们对于海军问题的关注很可能在马来西亚、新加坡、台湾和澳大利亚等地持续保持优先。”

模力工场新鲜事

  • 模力工场将亮相 OceanBase 社区嘉年华!诚邀您加入我们的上海现场展位。作为 OceanBase 合作的创新社区,模力工场将于 1 月 31 日 登陆上海社区嘉年华,并拥有专属展位。这不仅是一次技术交流——我们更希望和您一起,在现场用 AI Coding 展现创造力、在开放麦分享您的项目故事、与行业先锋面对面切磋、在开源市集交换灵感。我们为您预留了专属席位,期待与您共同呈现:当开源精神遇上 AI 创造力,能碰撞出多少令人惊艳的可能。立即报名,锁定与数百位技术同行深度连接的一天!

028 周榜单总介绍

模力工场第 028 周 AI 应用榜来啦!本周上榜的应用大多来自美国 CES 展及阿里云通义智能硬件展,从优必选的集群物流调度系统到银河通用的零样本抓取机器人,从众擎的拟人步态双足机器人到 Walulu 的情感陪伴毛绒玩具——这些应用共同见证了一场时代风暴:AI 硬件正在集体跨越“工具”属性,进化为真正的“智能体”。它们不再是被动响应指令的机械装置,而是具备了理解环境、自主规划、闭环执行乃至情感交互能力的“数字生命体”。这场从“功能叠加”到“语音助手”再到“智能体化”的范式革命,正同时重塑生产力与生产关系:在工业场景成为可靠的“数字员工”,在消费领域则成为可建立羁绊的“数字伙伴”,标志着人机协同进入了全新的历史阶段。

  • OiiOii: 一款面向创作者与普通用户的 AI 互动式内容生成应用,通过自然语言或轻量交互,快速生成有趣、可分享的内容。

  • 云深处巡检机器人: 专注于工业复杂环境的自主巡检解决方案。其四足机器人具备强运动与感知能力,可在无网络支持下独立完成巡检任务并安全返回,已在电力、能源等领域实现落地应用。

  • 优必选(UBTECH)搬运/物流机器人: 提供从智能搬运机器人到集群调度系统的软硬件一体化智慧物流方案,帮助企业实现仓储搬运环节的自动化升级与效率提升。

  • 众擎机器人: 聚焦高动态双足人形机器人的研发,致力于突破拟人步态与平衡控制技术,为未来机器人在人类环境中的通用移动能力提供底层支撑。

  • walulu 📍成都: 一款具备情感交互与离线记忆能力的 AI 智能毛绒玩具,通过多模态交互设计,为用户提供个性化、可长期互动的陪伴体验。

  • 银河通用机器人: 研发面向仓储、零售等场景的通用移动操作机器人,具备视觉识别与自主抓取能力,可在动态环境中完成物品拣选、搬运等任务。

  • 千寻智能Spirit AI: 从事通用人形机器人系统研发,整合高性能硬件平台与 AI 算法栈,探索机器人在多场景下的感知、决策与执行能力。

本周必试应用

应用名称:OiiOii

关键词:全流程托管|零门槛动画|AI 协同创作

模力小 A 推荐:通过七个 AI 智能体(导演、编剧、美术等)分工协作,将你的文字想法自动转化为包含分镜、角色与场景的动画视频,大幅降低了专业动画内容的制作门槛。

上榜冷门但有趣的应用

应用名称:walulu

关键词:AI 硬件|可成长陪伴|离线记忆

模力小 A 推荐:一款结合了情感计算模型的智能玩具。它能够记住与你的互动,并做出个性化的反应,提供一种注重私密性与持续性的陪伴体验。

本周上榜应用趋势解读

AI 正在从虚拟世界走向物理世界,为自己寻找真实的“身体”。本周模力工场榜单上的应用清晰地展示了这一趋势——AI 不再是停留在软件层面的算法,更是成为驱动各类硬件的“大脑”。这次上榜的八大应用,集中体现了 AI 硬件在两大关键赛道的爆发:工业效率革命与情感陪伴需求。

在工业领域,AI 机器人正从简单的机械臂进化为真正的“智能员工”。云深处的巡检机器狗能够在无网络环境的复杂场景中自主完成巡检任务,实现了从“自动化”到“自主化”的跨越;优必选的智慧物流方案已超越单台设备,提供机器人群调度与仓储管理系统深度集成的整套解决方案;银河通用的物流机器人则实现了“零样本抓取”能力,即使面对全新商品也能准确识别搬运。这些进展表明,工业机器人正从实验室原型走向工程化落地,其核心价值在于可量化的投资回报。

在消费领域,情感陪伴型机器人正开辟全新市场。Walulu 的 AI 毛绒宠物通过情感模型与离线记忆技术,创造出能随互动成长的“伙伴关系”,本质是在贩卖情感价值而非功能价值。这反映了 AI 正从解决效率问题,转向满足更深层的心理需求。未来,能否建立稳定、专属的“数字亲密关系”,或将成为此类产品发展的关键。

特别值得关注的是众擎的人形机器人——虽然步态尚显蹒跚,但其对双足行走、自然步态的追求,瞄准的是机器人无缝进入人类环境的终极目标。这种对“通用形态”的前瞻布局,代表着产业在为更广阔的未来场景做技术储备。

除了实体硬件产品,OiiOii 这款 AI 动画创作应用近期也备受瞩目。其“全流程托管模式”尤为亮眼——平台将传统动画制作中的艺术总监、编剧、分镜师、角色设计师、场景设计师、动画师、音效总监等七个核心角色,分别由七个 AI 智能体担任。这些智能体不仅形象亲切可爱,更如导师般指引用户一步步完成创作。用户只需输入创意想法,并在关键节点进行确认,即可产出完整动画作品。这极大降低了创作门槛,让普通用户也能轻松上手动画制作。

综上,AI 硬件已越过“加个语音模块”的简单升级阶段,进入以智能体化为特征的第三阶段。产业不再满足于制造“能联网的工具”,而是致力于创造“能自主行动的数字生命体”。从工业现场到家庭空间,AI 正在改写生产力与生产关系的定义——在工厂成为可靠的数字员工,在生活场景成为温暖的数字伙伴。当 AI 真正获得在物理世界中感知、决策和执行的能力,人机协同或将进入一个前所未有的新纪元。

defaults -currentHost write -globalDomain NSStatusItemSpacing -int 4

defaults -currentHost write -globalDomain NSStatusItemSelectionPadding -int 2 

killall ControlCenter     

bartender 类的用起来不太顺手,调整顺序的时候乱跳,但是搜索的功能挺好用的
(苹果公司不打算修这个吗,icon 在刘海儿超出直接没了

Apple 推出 Apple Creator Studio

1 月 13 日,Apple 宣布将于 1 月 28 日上线名为 Apple Creator Studio 的创意软件订阅套装,该套装整合了 Mac 与 iPad 版 Final Cut Pro、Logic Pro、Pixelmator Pro,Mac 版 Motion、Compressor、MainStage,以及 iWork 系列(Keynote、Pages、Numbers、无边记)的进阶功能,旨在为视频剪辑、音乐制作、图像设计和效率办公场景提供专业级软件支持和 AI 辅助。订阅上线后,Mac 端用户仍可选择在 App Store 一次性付费买断 Final Cut Pro、Logic Pro 等单项软件。

Apple Creator Studio 订阅费用为每月 38 元或每年 380 元,提供一个月免费试用;高校教育优惠价格为每月 18 元或每年 180 元。来源


影石发布 Link 2 Pro 系列网络摄像头

1 月 13 日,影石发布 Link 2 Pro 系列网络摄像头,包括 Link 2 Pro 和 Link 2C Pro,均搭载 1/1.3 英寸大底传感器,支持 4K 超高清分辨率和双原生 ISO 技术,配备指向麦克风,可在开放式工位或户外嘈杂环境等场合清晰收音;支持 Link Controller,可一键开启基于 AI 算法的自然景深效果。Link 2 Pro 还支持 AI 追踪、两轴云台和自动构图功能。

影石 Link 2 Pro 系列支持与 Wave 集成,实现一体化音视频解决方案,在多人会议场景中可自动识别、切换发言人。价格方面,影石 Insta360 Link 2 Pro 标准套装定价 1758 元,影石 Insta360 Link 2C Pro 标准套装定价 1398 元。来源


特斯拉在美推 2026 款 7 座 Model Y

1 月 13 日特斯拉在美国市场推出 2026 款 Model Y,其中高配版 Premium 四驱车型可选装 7 座,其余型号则为 5 座。

2026 款 Model Y 车内空间与旧版相同,后备箱新增儿童座椅,选配价格为 2500 美元,整车起售价为 51490 美元;此外,Premium 高配版下放了顶配版原有的高分辨率 16 英寸车机、黑色车顶内衬,二者无需加钱选购;Premium 版还可以选装 20 英寸石墨色 Helix 轮毂,选配价格为 2000 美元。来源


Adobe Firefly 上线 GPT-Image 1.5 模型

Adobe 于 1 月 13 日宣布在 Firefly AI 创作平台中上线 OpenAI GPT-Image 1.5 模型,Firefly Pro 和 Premium 订阅用户在 1 月 15 日之前可使用该模型不限量生成图片。目前 Adobe Firefly 平台已整合了 Adobe 自家及 OpenAI、Runway、Black Forest Labs、Pika、Ideogram、Google 等各大厂商的图像、音频、视频模型。平台采用「生成式点数」订阅机制运行,其中 Standard 方案月费 9.99 美元,每月包含 2000 点生成额度;Pro 方案月费 19.99 美元,提供 4000 点额度;而 Premium 方案月费 199.99 美元,提供高达 5 万点生成额度。来源


任天堂否认在广告中使用 AI

继早前在新的 My Mario 儿童玩具广告中被指使用 AI 生成工具后,任天堂近日否认了相关指控,称该广告的制作和拍摄过程中并未使用 AI。

引发争议的广告截图

此前关于该广告图的争议主要围绕在出镜模特的拇指,但参演模特本人在接受 IGN 采访时表示自己确实参与了试镜、选拔流程并实际进行了拍摄,部分网友则在后续的讨论中补充,广告图中引发争议的部分也是双关节拇指的正常表现。来源


看看就行的小道消息

  • 通过路透社援引《亚洲日经》的报道称,Google 计划将除 a 系列外所有 Pixel 机型的研发和生产工作迁出中国。来源
  • 根据 Counterpoint 近期公布的市场研究报告显示,Apple 以 20% 的全球智能手机市场份额登顶榜首,而三星和小米紧随其后。来源
  • 据 Tech 星球独家爆料,拼多多目前正在内测一项名为「百亿超市」的业务板块,该板块目前涵盖了水果蔬菜、坚果零食、乳饮冲调等多个品类。值得一提的是,用户可以在每周一零点开始领取各类立减券或折扣券以此购买特惠商品。来源
  • 爆料称荣耀近期将与泡泡玛特 IP 展开合作,计划在下周发布泡泡玛特联名荣耀 500 手机。来源


少数派的近期动态

  • 年末「夯」一下!少数派 2025 年度盘点正式上线
  • 少数派会员年终福利来袭,引荐比例限时上调至 15%,邀请好友享 85 折入会优惠。参与活动
  • 好玩又实用,还有迪士尼授权配件可选,少数派「扭扭宝」充电宝火爆开售。来一个试试
  • GAMEBABY for iPhone 17 Pro & 17 Pro Max 系列现已上市。进一步了解
  • 《蓝皮书》系列新版上架,一起探索全新 iOS 和 macOS 的精彩。试读并选购


你可能错过的文章


> 下载 少数派 2.0 客户端、关注 少数派公众号,解锁全新阅读体验 📰

> 实用、好用的 正版软件,少数派为你呈现 🚀

    我再来说一次 vercel 自动部署问题。之前发过两个帖子,也有热心的网友帮我想办法,能自动部署后,我还是不甘心,想办法找出原因。今天问题终于找到了。也许对于高手来说,是个很弱智的错误。简单说一下怎么发现问题的。
    我又做了个项目,https://www.cluesbysam.net/ ,这次提交到 git 后没自动部署。但是发现了问题。
    在创建 git 项目的时候,选择 Private ,就不会自动部署。我之前能自动部署的那个项目,https://dreamyroomlevel.org/ 在 git 创建的时候,默认是 public ,我没改,结果就能自动部署。后来这个项目,我改成 Private ,更新代码后就不会自动部署。唉,太丢人了。

    适配过程中发现:如果某个 SQL 的查询条件是 some_col != '',那么返回的结果就会是空

    于是做了如下简单实验:
    SQL

    select
        case
            when ('1' != '') then '1'
            when ('1' = '') then '2'
            else 'else'
        end as result_1,
        ('1' = '')::bool as result_2,
        ('1' != '')::bool as result_3,
        ('1' != '' or '1' = '') as always_true_1,
        ('1' != '1' or '1' = '1') as always_true_2
    

    result:

    {
      "postgres": {
        "result_1": "2",
        "result_2": false,
        "result_3": true,
        "always_true_1": true,
        "always_true_2": true
      },
      "gaussdb": {
        "result_1": "else",
        "result_2": null,
        "result_3": null,
        "always_true_1": null,
        "always_true_2": true
      }
    }
    

    完全不明白为什么 gaussdb 的逻辑是这样的,如果有人知道可以告诉我一下吗?

    背景:看到 V2 上的帖子,说做一个 [大爷快跑] 的项目未成功 https://www.v2ex.com/t/1185161

    因为做了很久天使投资、所以常和创业者接触,有一些直观的感受:

    [最小可行性验证] 一个成熟创业者,一般是这么做的:
    1 、先组建微信群:一个是有意赚这个钱的老人,一个是有意请人帮拿快递的小区邻居。如何组建呢?要么通过小区业主群,要么通过去老人常去的地方蹲守。
    2 、然后在微信群中接单、下单;
    3 、如果这个业务量能做起来了,说明这个商业模式能跑通,然后才是开发专门的平台;
    4 、然后在周边小区推广,逐步扩张。

    [项目重点分析] 另外,这种业务其实最关键的要考虑的是风险:
    1 、老人取快递的时候、不小心搞坏了,如何应对?
    2 、老人接单后取快递的过程中、不小心受伤了,如何应对?
    这 2 点,如果是老人自愿自发去做的、他们自己会想办法承担责任;但如果是接单的商业行为,呵呵,大概率是会要创业者承担责任。而这种责任,很有可能让创业者打工一辈子去还。

    技术人员常见的思路:
    1 、不管三七二十一,有了想法先花时间做个小程序或 APP 出来;
    2 、然后想办法推广;
    3 、然后才在过程中发现模式不通、竞争无法应对、甚至重大风险;
    4 、最后无奈停止。
    导致的结果:
    1 、浪费自己的时间精力、甚至金钱;
    2 、浪费早期用户的信任 —— 这种做的多了,就有可能留下不好的印象了。

    最近才知道一个 很多人可能不知道的 Google One 用法:
    如果你订的是 Google One AI Pro ( 2TB ),
    其实是可以通过 家庭组 添加 5 位成员一起使用 Gemini Pro / Advanced 权限的。
    ✔ 每个人都是独立 Google 账号
    ✔ 聊天、文件互相不可见
    ✔ 官方支持的家庭共享方式
    我自己的订阅到 2026 年 11 月 24 日。
    有要添加的吗?𝕤𝕖𝕝𝕟𝟘𝟠𝟡𝟠

    微软2026年1月补丁星期二修复3个零日漏洞和114个安全缺陷

    比利时AZ Monica医院遭网络攻击后关闭所有服务器

    Target员工确认泄露源代码真实有效

    Betterment在加密货币诈骗邮件浪潮后确认数据泄露

    新型VoidLink恶意软件框架瞄准Linux云服务器

    Central Maine Healthcare数据泄露事件影响超14.5万人

    比利时AZ Monica医院遭网络攻击后关闭所有服务器

    新版Windows更新替换即将过期的安全启动证书

    微软2026年1月补丁星期二修复3个零日漏洞和114个安全缺陷

    比利时AZ Monica医院遭网络攻击后关闭所有服务器

    Target员工确认泄露源代码为真实数据

    Betterment在加密货币诈骗邮件浪潮后确认数据泄露

    中缅因州医疗系统数据泄露事件影响超14.5万人

    比利时AZ Monica医院遭网络攻击后关闭所有服务器

    新版Windows更新将替换即将过期的安全启动证书

    不容错过:超1000门实用技能课程通行证仅售20美元

    VMware ESXi零日漏洞在披露前可能已被利用长达一年

    加利福尼亚州禁止数据中介转售数百万人的健康数据

    黑客利用配置错误的代理服务器访问付费LLM服务

    微软或将允许IT管理员卸载Copilot

    比利时AZ Monica医院遭网络攻击后关闭服务器

    新版Windows更新将替换过期的安全启动证书

    不要错过这份可访问1000+实用技能课程的20美元通行证