2026年3月

最近群里炸锅了,都在传那个中科院出的“数据胶囊”。免费20G,支持WebDAV,还是国家队背景,听着是挺唬人的。不少人问我这玩意儿能不能替掉坚果云,毕竟谁不想白嫖呢?说实话,我也没忍住,跟风注册了一个。

结果吧,折腾了一周,我又灰溜溜地把数据迁回坚果云了。

为啥?免费的东西,有时候可能是最贵的。

先说说这个“数据胶囊”吧。它其实不是给咱们这种普通人用的网盘,更像是个给科研人员用的对象存储桶。优点很明显:中科院背书,跑路概率小;速度还行,毕竟由于国内节点;支持WebDAV。

但槽点也真是让人头大。首先注册就得劝退一批人,得下载个专门的APP做人脸识别实名认证,还要关联你的网络身份ID。
我当时对着手机摇头晃脑半天,心里就在想:我就存个文献,至于查户口吗?再就是它没有正经的电脑客户端!你能想象吗?2026年了,传个文件还得开网页或者找第三方工具挂载,想右键直接分享个链接?没门。那种割裂感,就像你习惯了智能手机,突然让你用回诺基亚发邮件。

还有个大雷,官方协议里写得很清楚,“禁止商用”,而且主要是服务科研的。这种非商业性质的项目,说不定哪天政策一变,要么关停,要么限流,之前的某高校云盘就是前车之鉴。

对于咱们这种重度依赖Zotero和Obsidian的人来说,它跟坚果云的差距,真不是这20G空间能弥补的。

我举个最痛的例子——增量同步
用Zotero抓取了一篇几百页的PDF,你在上面高亮了一行字。如果是用中科院这个(或者其他大多数WebDAV网盘),它会傻傻地把这几百兆的文件重新上传一遍。不仅慢,而且你要是网稍微抖一下,上传失败,心态直接崩。
但坚果云它是懂怎么偷懒的,它只传你改动的那几KB数据。那个速度差异,特别是你文献库一旦大了,这种丝滑感真的回不去。

再有一点,
写论文改笔记,手滑误删甚至被覆盖是常有的事。免费网盘大多两手一摊:怪我咯?但坚果云有文件历史版本,哪怕你改乱了,也能一键穿越回几天前、甚至几个月前的版本。这功能我用得不多,但有一次确实救了我的毕业论文,那时候我就发誓,这钱花得值。

还有个关于安全的,虽然中科院背景硬,但毕竟是个实验性产品。坚果云可是正儿八经过了公安部三级等保的,这玩意含金量很高,非银行机构的最高认证了。还有ISO的双认证,这都是实打实的背书。咱们的数据,尤其是科研数据,那是咱们的命根子,放在这种运营了15年的老牌平台上,晚上睡觉都踏实点。

如果你只是想找个地方扔点不常用的老照片、安装包,甚至一些不重要的电影,中科院这个还是能用的,毕竟免费20G也是肉。
但如果你的数据是“活”的——你要天天改论文、记笔记、同步代码——听句劝,别拿自己的效率和数据安全去赌那点免费空间

专业的事,还是交给专业的工具吧。那一杯咖啡钱换来的稳定和省心,绝对是划算的买卖。

现在新用户注册坚果云好像还有免费试用团队版的机会,想避坑的朋友可以直接冲:
https://www.jianguoyun.com/s/campaign/cpclanding/main?sch=AIsf

做A股行情分析/基金研究开发时,你是否也被实时数据获取难住?用HTTP轮询抓行情,延迟高、CPU耗损大、多标的处理复杂——这是多数开发者都会遇到的共性问题。本文从实际开发场景出发,分享基于WebSocket的A股分钟级行情订阅方案,代码可直接复用,彻底解决轮询的核心痛点。

一、先明确:轮询模式的3个核心痛点

不管是搭建行情看板还是做标的监控,传统HTTP轮询都会踩这3个坑:

  1. 数据延迟不可控:轮询间隔决定延迟,1秒轮询=至少1秒延迟,极易错过关键价格节点;
  2. 资源消耗过高:高频请求导致本地服务器CPU占用率飙升,甚至触发接口限流;
  3. 开发维护成本高:多标的需手写多线程逻辑,线程管理不当易卡顿,陷入“低效率高消耗”循环。
注:该问题在基金研究的实时标的监控场景中尤为突出,直接影响策略落地效率。

二、解决方案:WebSocket长连接订阅模式

行业主流的高效解法是基于WebSocket长连接的订阅模式(服务端主动推送数据),核心流程仅3步,适配所有A股行情研究场景:

  1. 建立WebSocket长连接,打通行情数据与本地程序的稳定传输通道;
  2. 发送标准化订阅请求,指定标的代码(如000001.SH)、数据粒度(分钟级);
  3. 配置回调逻辑,处理推送数据(打印/存库/推前端均可)。

三、可直接运行的Python实现代码

以下代码已验证可直接运行,适配基金研究端标的监控需求,复制即可用:

import json
import websocket

WS_URL = "wss://api.alltick.co/realtime"
# 想关注的 A 股股票
symbols = ["000001.SH", "600519.SH"]

def on_open(ws):
    print("连接建立成功,准备订阅分钟级行情")
    msg = {
        "action": "subscribe",
        "symbols": symbols,
        "interval": "1m"
    }
    ws.send(json.dumps(msg))

def on_message(ws, message):
    data = json.loads(message)
    print("收到行情:", data)

def on_error(ws, error):
    print("连接出错:", error)

def on_close(ws):
    print("连接关闭")

if __name__ == "__main__":
    ws = websocket.WebSocketApp(
        WS_URL,
        on_open=on_open, on_message=on_message,
        on_error=on_error, on_close=on_close
    )
    ws.run_forever()

运行前置条件

  • 安装依赖:pip install websocket-client
  • 环境要求:Python 3.6+
  • 网络要求:可访问 wss://api.alltick.co/realtime

四、订阅模式 vs 轮询模式:核心优势

维度轮询模式WebSocket订阅模式
数据延迟秒级(依赖轮询间隔)毫秒级(数据生成即推送)
资源消耗CPU占用70%+(高频轮询)≤10%(无主动请求)
开发复杂度需维护多线程/定时器单连接+回调,逻辑极简

五、生产环境落地的3个关键技巧

想要订阅模式稳定运行,这3个实操经验一定要记:

  1. 心跳检测+自动重连:应对网络波动/服务端断连,避免行情数据中断;
  2. 批量订阅优化:多标的整合为一个请求,减少连接数,提升稳定性;
  3. 时序数据存储:分钟级数据增长快,建议用TimeScaleDB存储,方便回测/分析。

六、数据源选择建议

选对数据源是关键,基金研究场景优先选:

  • 延迟低(≤200ms)、标的覆盖全(沪深A股/ETF);
  • 接口稳定(可用率≥99.9%)、接入简单;

总结

基于WebSocket的A股分钟级行情订阅模式,从根源解决了轮询的延迟、资源、开发成本问题。该方案已在基金研究场景落地验证,既能保障数据实时性,又能降低运维成本,是A股行情研究开发的最优解。

如果你有其他行情接口对接的问题,欢迎在评论区交流~

一个月前某一天下班回家的路上冒出一个想法:让象棋可以随意下到棋盘的任意位置来进行战斗,会不会有点意思?

于是业余时间让 gemini vibe 了一个原型,也就是现在的练习模式:双方可以轮流出子或行动,消灭完对方棋子获胜。

试玩了一下其实感觉还行,黑方电脑是让 gemini 实现的简单 minimax 算法,但似乎已经够用。同事和朋友给了一些正反馈,虽然后续完全没有迭代这个模式,但入口一直保留在了首页。

基础的版本做完之后,这当然是一个简单得不能再简单的小游戏了,我就在想能不能迭代成一个肉鸽游戏?

最开始的想法也就是肉鸽常见的元素,无非就是强化棋子,添加关卡。我最开始给中国象棋的每类棋子设计了 3 v 种强化,比如车:

  1. 无视阻拦
  2. 连击
  3. 行走路线无法落子,持续一回合

设计完一版就让 Gemini 改一版(后来用 Codex ),说实话全程没有写过一行代码,越做越多,慢慢也有了更多的新想法,也让这个游戏变得更加复杂了。包括强化棋子从强化某一类棋子走向强化所有棋子,添加主将,添加地图,添加怪物棋子,添加地形等等。

比较有意思的是,在这个过程中,发现了 Steam 上的《 Gambonanza 》(刚结束试玩)和《弈棋·三国志》( Demo )。前者是以国际象棋为基础的类小丑牌的肉鸽,后者是以中国象棋为基础的战棋类肉鸽,都是在传统棋类上的扩展,它们都已经做得非常完善了,特别是 Gambonanza 美术也很好看(瞬间感觉自己做的不香了,哈哈),从他们的游戏中也获得了很多灵感和想法。

由于我之前并没有做过游戏,在这个过程中才体会到游戏策划或者数值策划确实很难,想法其实是最简单或者说最廉价的,但如何选择,如何凝练出独特的核心玩法是最难的。

现在的状态

断断续续迭代了一个多月,加了很多东西,但总感觉玩法上差点意思,没有一个很清晰的能明显提升游戏体验的点子。

象棋有一个特殊之处是吃子必然移子,会让己方棋子陷入危险,不可避免地演变为兑子,这在棋子设计和玩法设计对我造成了很多困扰。另外就是棋盘大了之后,车、炮这种移动能力特别强的棋子就会破坏游戏平衡。

其实这也是设计天火机制的初衷,不过总体都是打补丁式的迭代,所以到现在感觉这个游戏陷入僵局,连我自己都有点玩不下去了 😂。

不过不管怎么说,欢迎大家体验!

截图

home
队伍初始页
商店场景
地图页
战斗场景

地址

https://chess-brawl.vibegame.site/

最近一年都没怎么写过代码了,现在的开开发基本全靠 AI 了,一点简单的代码都不愿意动手写,大脑也越来越退化了,突然想到若干年后,写代码估计也就成为小众的爱好了,就像现在写毛笔字、画画一样


在实时云渲染的商业化落地中,“单服务器多应用并发、互不干扰且低性能损耗”是降低部署成本、提升资源利用率的关键。3D应用(如UE4、Unity引擎项目)本身对CPU、GPU资源需求极高,如何在一台服务器上同时运行多个此类应用,让这类应用最大限度复用一台服务器的CPU能力、多张GPU资源,尽可能开多个应用实例,且保证每个应用的流畅性与独立性,成为行业技术攻关的核心命题。

当前市面上主流的资源隔离方案(虚拟机、沙盒)虽能实现基础隔离,但在3D应用场景下暴露诸多短板;而以点量云流为代表的国产云渲染厂商,通过自研轻量化CELL容器技术,实现了“高性能+高兼容性+低资源损耗”的平衡。本文将从技术底层拆解多3D应用并发的核心痛点,对比各类方案的优劣,剖析该国产技术路线的创新价值。

一、核心痛点:3D应用并发对隔离技术的特殊要求

实时云渲染中的3D应用(游戏、数字孪生、3D设计工具等),与普通办公软件相比,对隔离技术提出了更苛刻的要求:
1、低性能损耗:3D应用需占用大量GPU算力进行图形渲染,任何隔离层的性能损耗都会直接导致画面卡顿、延迟升高;所以最好是可以从操作系统最直接的去调用GPU系统资源。
2、GPU高效复用:单服务器往往配置多张高端GPU(如RTX4090),目的是在一个机箱内堆叠最大化的算力,并共用CPU、内存等资源,需支持多应用共享GPU资源,而非单一应用独占;
3、高兼容性:需适配UE4、Unity等不同类型3D引擎,且支持插件、外设(如键盘、鼠标、VR手柄)的正常调用;
4、强隔离性:多用户同时操作时,画面显示、键鼠输入、音频输出需完全隔离,互不干扰;
5、轻量化部署:支持快速启动、弹性伸缩,避免因隔离方案“过重”导致的资源浪费。
传统隔离技术因设计初衷与3D应用场景的不匹配,难以同时满足以上要求。

二、传统隔离方案的局限:为何无法适配3D应用并发?

1、虚拟机技术:“重隔离”导致的性能与资源浪费
虚拟机技术(KVM、VMWare、VirtualBox等)是最成熟的隔离方案,分为宿主型(在操作系统内运行虚拟机)和裸机型(直接运行在硬件上)两类,其核心逻辑是“模拟完整硬件环境,运行独立操作系统”。

技术原理与优势
虚拟机通过Hypervisor层实现硬件资源的虚拟化分配,每个虚拟机拥有独立的CPU、内存、存储、显卡(虚拟或直通)资源,操作系统与应用完全独立,隔离性极强。对于普通办公场景,其硬件兼容性好,可直接迁移现有软件环境。

但其在3D应用场景下的致命短板

  • 性能损耗严重:Hypervisor层的虚拟化转换会造成15%—30%的硬件性能损耗,3D应用的GPU渲染效率大幅下降;
  • GPU利用低效:若采用GPU虚拟化,需要昂贵的GPU虚拟化的License。并且,将一张GPU切割成了众多细分单元,一旦有某个应用需要一张完整的4090算力时,则无法进行满足。如果一张4090不做切分,又无法给多个虚拟机使用,只能做GPU直通;采用GPU直通的方案,一张高端GPU只能分配给一个虚拟机,如果某些应用一个只能占用10%的GPU算力,剩余的90%又无法开启另一个应用(此处涉及到应用画面、声音等资源的隔离),则无法进行弹性化的更优调度。
  • 部署“过重”:运行10个UE4进程需创建10个虚拟机,每个虚拟机需占用数GB内存(仅操作系统就需2-4GB),单服务器内存很快耗尽,且虚拟机启动时间长达数分钟,无法满足实时云渲染的弹性伸缩需求;
  • 硬件兼容性差:部分专业3D显卡(如NVIDIA Quadro系列)的虚拟化支持不完善,可能出现驱动异常等问题。

2、沙盒(进程虚拟化)技术:“轻量”却兼容不足
沙盒技术基于进程级隔离,通过重定向应用程序的系统调用,将磁盘读写、注册表操作、外设访问等重定向至虚拟环境,核心逻辑是“隔离进程资源,而非模拟完整系统”,属于轻量化方案。

技术原理与优势
无需创建独立操作系统,仅为每个3D应用分配虚拟运行环境,性能损耗极低(通常在5%以内),启动速度快(秒级),支持单服务器运行更多进程,GPU资源可直接共享。

3D应用场景下的核心局限

  • 兼容性极差:沙盒技术需针对每个应用的系统调用进行单独适配,而3D应用(尤其是UE4、Unity引擎项目)依赖大量底层硬件接口(如DirectX、OpenGL、GPU计算接口),且插件生态复杂,导致沙盒难以全面兼容——多数沙盒方案仅能支持少数几款热门游戏,无法覆盖工业设计、数字孪生等专业场景;
  • 隔离性不足:3D应用的音频输出、GPU资源抢占、外设调用等场景,沙盒的隔离机制易失效,可能出现多应用音频混叠、键鼠操作串流等问题;
  • 扩展能力弱:无法支持多显卡负载均衡、用户权限精细化控制等商用场景需求,仅适用于个人或小型测试环境。

三、国产技术创新:点量云流的CELL技术解决方案

针对虚拟机“过重”、沙盒“兼容差”的痛点,点量云流采用自研的CELL容器化方案,既保留对现有环境的适配能力,又通过技术创新突破3D应用并发的核心瓶颈,其特点具体如下:
1、可兼容虚拟机模式:保障现有场景平滑迁移
点量云流完全支持宿主型、裸机型虚拟机环境部署,可直接运行在KVM、VMWare等虚拟化平台上。对于已采用虚拟机架构的企业,无需重构现有环境即可接入云渲染服务,保障业务平滑过渡。但该模式仅作为兼容选项,核心推荐采用自研轻量化容器化方案,以实现资源利用率最大化。

2、自研轻量化容器CELL技术:平衡“隔离性”与“高性能”
点量云流摒弃传统沙盒的复杂重定向适配逻辑,创新推出“CELL多开机制”,主要针对UE等引擎的画面、声音、键盘鼠标等做虚拟层隔离,但对其他则保持高度兼容性。并且基于专利技术,实现多GPU的负载均衡调度,实现“比虚拟机轻、比沙盒兼容广,对硬件资源最大化利用”的核心优势,其技术亮点如下:
(1)隔离逻辑:精准隔离核心资源,不冗余模拟系统
CELL多开机制不创建完整虚拟系统,仅针对3D应用并发所需的核心资源进行隔离:

  • 输入输出隔离:独立分配键鼠、触控、VR手柄等输入设备权限,每个应用的操作指令仅作用于自身进程,避免串流;
  • 画面隔离:只针对画面输出层做隔离处理,每个用户仅能看到自身对应的3D应用画面,互不干扰;
  • 音频隔离:为每个应用分配独立声音通道,音频输出完全分离,无混叠问题;
  • 资源隔离:通过专利的智能调度算法分配GPU、充分利用单服务器下多GPU的场景。
    这种“精准隔离”模式避免了虚拟机的系统冗余,几乎无任何性能损耗,等同于原生活行效果。

除3D类精准隔离外,点量云流还支持对所有应用的隔离优化:

  • 全域软件兼容:可支持Windows和Linux系统下的绝大多数软件,可实现CATIA、SolidWorks、3ds Max、Maya等专业软件的无差别兼容,无需单独适配;
  • 多显卡负载均衡:支持自动识别服务器多显卡资源,根据各应用的GPU算力需求动态分配显卡负载,避免单显卡过载;
  • 外设兼容完善:原生支持键盘鼠标、声音、VR头显、游戏手柄等3D应用常用外设,无需额外安装驱动,即插即用。

(2)GPU复用:突破“虚拟化/直通”的二选一困境
点量云流无需依赖GPU虚拟化技术,也无需将GPU直通给单个应用,而是通过“宿主系统直接调度+进程级资源隔离”,实现多3D应用共享GPU资源:

  • 单个GPU可同时为多个3D应用提供渲染算力,多个应用可均衡分配到不同GPU进行运算;
  • 避免GPU虚拟化带来的延迟增加,3D应用的图形渲染延迟与原生运行几乎无差异,保障实时交互体验。

3、商用级扩展:适配企业级场景需求
除核心隔离与性能优势外,点量云流的CELL方案还具备完善的商用扩展能力:

  • 弹性伸缩:支持秒级启动/关闭3D应用进程,单服务器可根据用户需求动态调整并发数量,单显卡即可最高支持20+个轻量级3D应用同时运行;
  • 成本优化:单服务器并发能力比虚拟机模式提升60%以上,减少硬件和运维投入。
  • 功能齐全:扩展能力,完全自研模式,后续也可叠加同3DsMax等软件的插件、深度融合、无缝衔接等。

我有一个朋友 a 最近和公司闹的很不开心,事情是这样的:

去年年会之后,公司通知全员降薪 15%,从上个月工资开始扣,本月发放了降薪后的薪资,a 拒绝降薪,向公司索要了工资条,并且提出了第一次异议,让公司发放正常薪资,公司未给予回复;

此时其他人义愤填膺,因此 a 得到了错误信息,觉得大家都会闹,哪知道第二天除了他和另一位被裁的员工 b ,其他人都签字接受了;

第二天公司人事、领导、a 三方约谈赔偿,起初赔偿已经聊好 n+1 以及离场日期,有录音有聊天记录;

当天中午领导再次约谈说次月走赔偿 n ,a 拒绝,下午公司再次变卦说不赔偿,恢复原本薪资,a 估计是觉得相比不赔偿,恢复薪资也行,竟然就接受了(口头);

次日公司再次约谈说,他这个降薪其实不是降薪,因为一年多前公司给他涨过 1k ,当时只有聊天记录,没有书面确认,公司说这其实是项目奖金,压根没涨过薪,因此降薪实际上是不发奖金了,合理合法;

而另外一位同事 b ,当天与领导吵架后说不给赔偿就报警后,第二天拿到 n+1 并顺利被裁;

a 没招了,心灰意冷想离职,想着年假还没消,就请年假,公司也拒绝,就这么放养着,并从温暖的三楼办公室调到无空调的二楼办公室留他一人受冻,惨兮兮熬到过年;

年后,公司可能意识到了 a 可能会摆烂等赔偿,新出了绩效考核制度,规定:

1. 单个任务不能超过 8 小时工时;

2. 绩效考核不合格会调岗和培训;

并给其安排了大量任务,a 原本想通过拖延工作达到被裁员拿赔偿的目的,现在这条路也被堵死;

现在 a 想要达成被迫离职的目的,并拿到 n 的赔偿,朋友们有什么办法么。

vivo 内置的出境上网,在本机不插实体 SIM 卡的情况下依然可以使用。

此功能需要占用一个 sim 卡“坑位”(也就是说有 2 张卡在内,在使用此功能时候其中一张会不可用)

好奇 vivo 出境流量原理,貌似只能有互联网,不能打电话发短信,算是个半残的 e-sim ?

vivo x300pro 上测试通过

大家好,送码活动开始啦。

赠送 10 个邀请码,先到先得,送完即止。
登录后,找到“账单”--“选择我的计划”--在下方点“我有邀请码”,输入邀请码 S8TAHF97YA ,立即赠送一个月会员(仅前 10 个用户领取有效)

浪浪研究室
https://www.langlanglab.com

功能:
1 ,实盘交割单下载。
2 ,多周期联动分析。
3 ,实用图表画线、测量工具。
等等

还有其他实用功能等你发现。期待收到您的使用反馈。

NAS 入门用户,通过群晖自带的 Synology Photos / Drive ,外网访问速度很慢,希望能实现 4K 视频串流播放(如在线播放 NAS 存储的电影),及文件下载提速(期望能外网实现 2MB/s 的访问速度),家中的是 200Mbp 的电信网络。

求助各位大佬,有何好办法?希望尽量简单。

ai 时代,或者说下一个 xxx 时代,作为程序员可以创业哪些组件占据一席之地? 历代思路整理总结

现在流行 openclaw,围绕着 openclaw 生态诞生了一堆的东西,每个东西背后都可以生产一堆的价值,价值就是钱

作为程序员,如果不仅仅是想打工赚工资,就可以看看这个教程,看看每次出现这些现象级的新东西的时候,怎么创业,可以创哪些业。只要可以占据一角,也能带来大量的财富


首先以 openclaw 举例, 想首先做出一个 openclaw 是很难的

但是 openclaw 出现且成为现象级之后,怎么围绕 openclaw 吃残羹剩饭把自己吃饱,也很有搞头:

有了 openclaw 这种重武器之后,就会诞生注意 nanobot 这种轻量级的替代品

openclaw 现在运行在电脑上,那就会有人想迁移到手机上运行,就诞生了 Open-AutoGLMMobileAgent 这样的开源项目

openclaw 需要插件市场,就有了 clawhub, 有因为有上面各种 openclaw 的变种,肯定会出现一个不依赖 clawh 的 hub ,貌似还没人做,你可以做

Anthropic 近日发布了一项随机对照试验,结果显示,使用 AI 编程辅助工具的开发者在理解能力测试中的得分比手动编程的开发者低 17%,且其生产力方面的提升未达到统计显著性。在对 52 名初级工程师的研究中,研究人员发现了明显的分化:将 AI 用于概念性问题的开发者测试得分达到或超过 65%,而将代码生成任务委托给 AI 的开发者得分则低于 40%。

 

Anthropic 研究人员开展的这项随机对照试验,旨在考察在学习新工具时,AI 编程助手如何影响技能发展。52 名参与者大多为初级工程师,且都至少有一年每周使用 Python 的经验。他们需要学习 Trio——一个此前无人接触过的异步编程库。对照组与 AI 辅助组均完成了两项编码任务,随后参加了一项测验,内容涵盖调试、代码阅读和概念理解。

 

AI 组完成任务的时间平均快约两分钟,但这一差异在统计学上并不显著。然而,测验成绩呈现出不同的结果:AI 组平均得分为 50%,而手动编码组为 67%,差距在调试类问题上尤为明显。

 

 在 Hacker News 的讨论中,用户 siliconc0w 概括了核心张力:

人们是在用学习机会和能力退化,去换取一种并不总能兑现的生产力提升。

另一位评论者 AstroBen 提出了代际层面的担忧:

我在想,未来会不会出现这样一种情况:初级工程师再也无法真正掌握独立工作的技能和经验,而是完全依赖 AI。

 

研究发现,开发者如何使用 AI,比是否使用 AI 本身更关键。低分模式(平均低于 40%)包括:完全将代码生成委托给 AI、逐步把所有工作交给 AI 的渐进式依赖,以及在调试过程中依赖 AI 直接给出解决方案而非帮助澄清问题。高分模式(平均 65% 或以上)则有一个共同点——保持认知参与:在生成代码后提出追问,将代码生成与解释结合,或仅在概念性问题上使用 AI,而编码过程仍由自己完成。正如 Hacker News 用户 AstroBen 所说:

AI 作为个人导师极其有用。

 

这一模式也得到了独立学术研究的支持。2024 年,马里博尔大学(应用科学)Jošt、Taneski 与 Karakatič 开展了一项为期 10 周的实验,32 名本科生在学习 React 过程中参与研究。结果几乎一致:在代码生成与调试中使用大语言模型(LLM)与最终成绩之间存在显著负相关,而将 LLM 用于解释性用途则未发现显著负面影响。研究作者指出,这种使用方式“可能不会妨碍,甚至可能有助于学生表现”。

 

Medium 撰稿人 Tom Smykowski认为,Anthropic 的研究主要测量的是学习新库时的表现,而非整体编程能力。他写道:

这项研究展示的不是 AI 如何影响程序员整体能力,而是 AI 使用如何影响你学习新事物的过程。

 

另一位 Medium 作者 Guru Prasad 则将核心张力界定为“认知参与”与“认知卸载”之间的区别,而非简单的“使用 AI”与“不使用 AI”的对立。

这项研究关注的不是 AI 对程序员整体能力的影响,而是当你学习新技术、新工具时,使用 AI 会带来怎样的影响。

 

这些发现与 Anthropic 此前的观察性研究形成对照。早期研究显示,在开发者已经具备相关技能的任务中,AI 可将任务完成时间缩短 80%。研究人员指出,AI 可能在既有技能领域提升生产力,同时在新技能习得方面产生抑制作用。不过他们也承认,本次研究仅测量了任务完成后的即时理解水平,并未追踪长期技能发展。

 

Anthropic 建议在部署 AI 工具时进行有意识的设计,以支持工程师的学习成长。他们指出,生产力收益可能以削弱监督 AI 生成代码所需的调试与验证能力为代价。目前,包括 Anthropic 与 OpenAI 在内的主要大语言模型提供商,都已推出专门的学习模式,强调理解优先而非任务委托,例如Claude Code 的学习与解释模式,以及ChatGPT 的学习模式

原文链接:

https://www.infoq.com/news/2026/02/ai-coding-skill-formation/

Hugging Face 推出了Community Evals功能,使 Hub 上的基准测试数据集能够托管自己的排行榜,并自动从模型存储库中收集评估结果。该系统依托 Hub 基于 Git 的基础设施,实现了基准分数报告和追踪的去中心化,使提交内容透明化、有版本记录且可重现。

 

在新系统下,数据集存储库可以注册为基准测试。注册完成后,它们会自动收集并显示 Hub 上提交的评估结果。基准测试会遵循Inspect AI格式在 eval.yaml 文件中定义它们的评估规范,描述任务和评估程序,以便结果可以重现。这个系统最初提供的基准测试包括MMLU-ProGPQAHLE,后续会随着时间推移扩展到其他任务。

 

模型存储库现在可以将评估分数存储在.eval_results/目录下的结构化 YAML 文件中。这些结果会出现在模型卡片上,并自动链接到相应的基准测试数据集。模型作者提交的结果与通过公开拉取请求获取的结果会被汇总。模型作者可以关闭拉取请求或隐藏与其模型相关联的结果。

 

该系统还允许任何 Hub 用户通过拉取请求提交模型评估结果。社区提交的分数会有相应的标记,并可以引用外部来源,如研究论文、模型卡片、第三方评估平台或评估日志。由于 Hub 运行在 Git 上,对评估文件的所有更改都有版本管理,结果何时被添加或修改以及由谁修改都有记录。关于报告分数的讨论可以直接在拉取请求对应的话题讨论中进行。

 

Hugging Face 表示,该功能旨在解决论文、模型卡片和评估平台之间基准测试结果报告的不一致性。虽然传统的基准测试仍然被广泛使用,但许多已经达到了高饱和状态,报告的分数也可能会因评估设置而产生差异。通过使用可重现的规范和可见的历史提交记录将模型存储库和基准测试数据集进行链接,新系统旨在使评估报告更加一致且可追溯。

 

XReddit上,人们的早期反应比较有限,但总体上是积极的。用户愿意看到评估报告变得去中心化和透明化,有些人强调,社区提交的分数比单一基准指标更有价值。

 

AI 及技术教育专家Himanshu Kumar评论道:

 

模型评估需要更好的标准化,Hugging Face 的社区评估可能有助于实现这一点。

 

与此同时,用户@rm-rf-rm分享道:

 

像 LMArena 这样的平台破坏了模型开发,并激励人们做错误的事情。我认为,这将在很大程度上消除那种不良态势。

 

该公司强调,Community Evals不会取代现有的基准测试或封闭的评估过程,而是提供一种机制,将社区已产生的评估结果公开展示,并通过 Hub API 实现数据共享。这将使外部工具能够基于标准化数据构建仪表盘、精心设计排行榜或进行比较分析。

 

该功能目前处于 Beta 测试阶段。想要参与功能测试的开发者,可以在模型存储库中添加 YAML 评估文件,或将数据集存储库注册为基准测试并明确定义评估规范。Hugging Face 表示,他们计划增加支持的基准测试数量,并根据社区反馈持续完善该系统。

原文链接:

https://www.infoq.com/news/2026/02/hugging-face-evals/

本来默认一直用 Google 搜索去搜东西,今天想在电脑上下个汽水音乐,然后在 Google 搜索 关键词:汽水音乐 windows 。结果排名#1 #4 都不是官网....全是两个盗版仿造的 wordpress 网站。真正的汽水官网根本找不到.....也就是在第一页,根本找不到真正的官网

百度在这方面最少有一个官网的标识,很快就可以分辨真官网在哪里

真的挺离谱的


📰 内容说明:本文为 AI 资讯摘要与编辑评论,所有内容均已标注原文链接。如涉及版权问题请联系处理。


今日亮点

今天 AI 圈真是热闹非凡!Anthropic 发布重磅声明,明确拒绝将 Claude 用于自主武器和大规模监控,CEO 甚至直言“不同意政府是世界上最美国的事”。与此同时,OpenAI 则宣布获得软银、英伟达、亚马逊等巨头的新投资,剑指全球 AI 算力基础设施的扩展,其“Stargate”项目也在加速推进。AI 的伦理边界与算力竞赛,今天展现得淋漓尽致。

💡 产品动态

Anthropic 拒绝 AI 军事化,收购 Vercept_ai

核心信息:Anthropic 发布官方声明,CEO Dario Amodei 公开表态,拒绝将 Claude 大模型用于自主武器系统和大规模监控。此外,Anthropic 还收购了 Vercept_ai,旨在提升 Claude 的计算机使用能力。

💡 编辑观点: Anthropic 此举在 AI 伦理和安全领域树立了一个明确的立场,尤其是在当前国际环境下,对“AI 武器化”的担忧日益加剧。这不仅是技术公司的社会责任体现,也可能为其在负责任 AI 发展方面赢得更多用户和监管者的信任。收购 Vercept_ai 则预示着 Claude 在工具使用和自动化任务处理能力上的进一步增强,使其能够更好地与外部环境交互。

📎 查看完整报道 | 来源: Anthropic Twitter

OpenAI 获巨额投资,加速 AI 基础设施建设

核心信息:OpenAI 宣布获得 SoftBank、NVIDIA 和 Amazon 的新投资,用于扩大 AI 基础设施规模,以实现 AI 的普惠化。其名为“Stargate”的超大型数据中心项目已在德州动工,标志着其在算力扩张上的野心。

💡 编辑观点: 这笔重磅投资及 Stargate 项目的推进,进一步确认了 AI 领域“算力即未来”的核心趋势。在模型能力飞速提升的当下,底层算力瓶颈日益突出。OpenAI 联合多方巨头构建多元化的计算生态,意在确保其在 AI 研究和产品开发上的领先地位,应对日益增长的计算需求。这预示着一场围绕 AI 算力基础设施的“军备竞赛”将更加激烈。

📎 查看完整报道 | 来源: OpenAI Twitter

Anthropic 推出“AI 流畅性指数”研究

核心信息:Anthropic 发布了一项名为“AI Fluency Index”的研究,通过分析数千次 Claude.ai 对话中用户迭代和细化工作的行为,来衡量人与 AI 的协作效率和“流畅度”。

💡 编辑观点: 这项研究从用户行为角度探索人机协作的深层机制,非常具有前瞻性。它超越了传统 A/B 测试的表面效果,试图理解用户如何与 AI 形成“默契”,这对于未来 AI 界面的设计、提示工程的优化乃至 AI 教育都具有重要的指导意义。真正高效的 AI 不只是性能强大,更在于能否与人类无缝协作。

📎 查看完整报道 | 来源: Anthropic Twitter

🔬 学术前沿

  • 智能汽车检测系统:新的多视角摄像头系统(AVI)结合深度学习(YOLOv8, Gemini-1.5 Flash 等)实现车辆缺陷检测和变体识别,实时准确,适用于工业部署。→ 📄 阅读论文

  • AI 情感与意识模拟:ReCoN-Ipsundrum 研究了一个可检查的 Agent,通过循环持久性循环和情感代理来模拟类似于“意识”的机制,探索如何工程化类意识的指标。→ 📄 阅读论文

  • 指令式图像编辑:提出一种新的多模态模型,通过大型语言模型(LLM)进行规划、推理和基于提示的图像生成,提升复杂场景下的图像编辑质量。→ 📄 阅读论文

  • 高效 RLHF 框架:RLHFless 是首个基于 Serverless 计算环境的同步 RLHF 训练框架,通过适应动态资源需求、前缀预计算和成本感知调度,实现了高达 1.35 倍的加速和 44.8% 的成本降低。→ 📄 阅读论文

  • AI 诊断对齐框架:通过不可变推理快照,系统性比较 AI 生成的影像报告与医生验证结果,提出诊断对齐框架,以更精准地评估 AI 在安全关键临床场景中的表现。→ 📄 阅读论文

  • LLM 增强 App Store 排名:研究表明,利用专门微调的 LLM 生成数百万文本相关性标签,可以显著提升 App Store 的搜索排名,尤其对长尾查询效果显著。→ 📄 阅读论文

🌍 行业观察

AI 算力正成为巨头们争夺的焦点。OpenAI 的“Stargate”项目及其巨额融资显示出其构建大规模、多元化 AI 计算基础设施的决心。这不仅是技术领先的保障,更是未来 AI 生态话语权的关键。随着模型规模的几何级增长,算力瓶颈将持续存在,而拥有强大计算基础设施的公司无疑将在竞争中占据优势。

📎 深度报道

💬 社区热议

Anthropic 拒绝将 AI 用于军事用途的声明在社区引起了广泛讨论。许多用户对此表示支持,认为这是 AI 公司承担社会责任的表现。Reddit 上有用户深入探讨了 AI 使战争“抽象化”的危险,并引述《星际迷航》中的情节,指出 AI 可能让冲突失去其应有的恐怖感,从而导致无休止的战争。同时,也有用户关注到开放权重模型与“AI 对齐”的矛盾,即在模型开放后,如何确保其不被用于恶意目的,这进一步加剧了 AI 安全和伦理的复杂性。

📎 相关讨论 1 | 相关讨论 2