2026年2月

📋 1. 先准备好

  • 看看系统对不对

    打开终端,先敲一下命令,确认系统是 Kylin V10 并且是 64 位。

    cat /etc/os-release
    uname -m
看到输出里有 `Kylin Linux`和 `x86_64`就成。
  • 找到你的安装包

    安装包下载:https://pan.quark.cn/s/8ee6cc26c0f2 ,假设你把 RPM 包下载到了 /home/你的用户名/下载/这个文件夹里。先切换到这个目录,并确认文件在那儿。

    cd /home/你的用户名/下载
    ls -l libicu-devel-62.1-6.ky10.x86_64.rpm
如果能列出文件信息,就说明路径没问题。
    • *

🛠️ 2. 开始装起来

推荐用第二种方法,它能自动搞定需要的依赖,比较省事。

方法一:直接用 rpm命令装

这个方法最直接,但如果缺东西就得自己动手找。

  1. 运行安装命令

    在 RPM 包所在的目录,执行下面这行命令:

    sudo rpm -ivh libicu-devel-62.1-6.ky10.x86_64.rpm
-   `-i`就是安装
-   `-v`能看到详细过程
-   `-h`会显示一个进度条
  1. 缺啥补啥

    如果安装失败了,屏幕上很可能会告诉你缺了某个依赖包(比如 libicu之类的)。这时候你就得根据提示,自己去把缺的那些 RPM 包都找来装上,然后再重新执行上面的命令。

方法二:用 dnf或 yum命令装 (推荐)

这个方法牛就牛在,它会自动从系统的软件库里把需要的依赖都给你下载并装好。

  1. 运行安装命令

    还是在 RPM 包所在的目录,执行下面任意一个命令就行:

    # 如果你的系统用的是 dnf
    sudo dnf install ./libicu-devel-62.1-6.ky10.x86_64.rpm
    
    # 或者,如果系统默认是 yum
    sudo yum localinstall libicu-devel-62.1-6.ky10.x86_64.rpm
回车后输入密码,它会自己分析依赖关系,问你是否继续,你输入 `y`回车就行了。
    • *

✅ 3. 最后验个货

装完了,最好检查一下来确认没问题。

在终端里敲入下面的命令:

rpm -q libicu-devel

如果屏幕返回的结果是 libicu-devel-62.1-6.ky10.x86_64,那就恭喜你,装好了!

精简持有品种 ing...

卖出的钱暂时买了短融 ETF ,看见腾讯跌的比较多,565 加了一手,现在成本还 620 ,最早三季报前 655 建的仓,之后因为港币升值,成本涨到了 670 ,真的难顶。

还想买茅台来着,突然一根大阳线让我尾灯都看不到了,打算先攒白酒 LOF 基金,之后有机会跟五粮液一块换成茅台。

Cedar是一个开源授权策略语言及 SDK,现在它已经正式加入了云原生计算基金会 (CNCF),成为其 Sandbox(沙盒)级别的项目。

 

该项目最初由亚马逊云科技构建,旨在为现代应用程序中定义和执行细粒度权限提供一个供应商中立的标准。

 

在云原生环境中,管理访问控制传统上依赖于硬编码逻辑或通用策略引擎。Cedar 通过允许开发人员将权限表示为策略,有效地将访问控制与应用程序逻辑解耦,从而解决了这一问题。这种分离使得团队无需重新部署代码即可更新权限,这种模式通常被称为“策略即代码”(Policy-as-Code)。

 

该语言支持常见的授权模型,包括基于角色的访问控制 (Role-Based Access Control,RBAC)、基于属性的访问控制 (Attribute-Based Access Control,ABAC) 和基于关系的访问控制 (Relationship-Based Access Control,ReBAC)。Cedar 的一个显著特点是其通过形式化验证关注确定性和安全性。该语言规范使用Lean定理证明器进行了形式化验证,其 Rust 实现则针对该形式化规范进行了差异化的随机测试。这种数学上的严谨性确保了策略引擎的行为完全符合预期,这对于安全敏感的操作至关重要。

 

除了核心语言之外,该项目对自动推理的依赖还实现了高级的工具功能。开发人员可以在部署前使用策略验证器来检查错误,确保策略与定义的模式一致。这种能力允许对策略进行数学分析,以回答诸如“特定请求是否会被允许或拒绝”之类的问题,从而提供了比传统测试方法更高的可信度。

 

在公告中,Kubernetes SIG 的名誉成员、工作组联合主席兼 CNCF 大使 Lucas Käldström 指出了该语言设计中固有的平衡,他表示:“我对 Cedar 最欣赏的一点是它深度的知识体系,即它之所以这样工作的原因……它在表达能力和可分析性之间取得了谨慎的平衡。”

 

加入 CNCF 将 Cedar 置于与Open Policy Agent(OPA)(一个 CNCF 已毕业的项目)相同的生态系统中。虽然 OPA 及其语言Rego是能够处理基础设施、准入控制和应用程序策略的通用工具,但 Cedar 是专门为应用程序级授权而构建的。它的设计优先考虑为拥有数百万用户和资源的应用程序提供高性能评估。此外,Cedar 对 ReBAC 的原生支持使其与Google Zanzibar模型保持一致,为OpenFGA等其他受 Zanzibar 启发的开源项目提供了替代方案。

 

自首次开源发布以来,该语言已在各个行业中得到采用。Cloudflare、MongoDB、StrongDM和Cloudinary等组织已将该技术集成到其技术栈中。它也是 AWS Systems Manager 等服务的基础。该项目已开始与其他开源倡议集成,包括 Linux Foundation 的Janssen项目Kubernetes-Cedar-Authorizer

 

通过加入 CNCF,该项目过渡到了供应商中立的治理模式。这一转变旨在培养更广泛的贡献者基础,并促进与云原生生态系统的更深度融合。该项目的路线图包括从 Sandbox 阶段逐步晋升到 Incubation(孵化)阶段,最终达到 Graduated(毕业)状态,遵循标准的 CNCF 成熟度生命周期。

 

原文链接:

Cedar Joins CNCF as a Sandbox Project

Python3就是 Python 3 的 Windows 安装包,装好之后就能在电脑上写 Python 代码、跑脚本,搞数据分析、爬虫、自动化啥的都能用。

一、准备工作

  1. 下载安装包

    安装包下载:https://pan.quark.cn/s/8a7244486d8b

  2. 用管理员身份运行(推荐)

    • 右键安装包 → 选“以管理员身份运行”,避免权限不够出问题。

二、安装步骤

  1. 双击 python-3.x.x.exe打开安装程序。
  2. 第一个界面,一定要勾最下面的 “Add Python 3.x to PATH” (把 Python 加到系统环境变量),不然后面用命令行运行 Python 会很麻烦!
  3. 选安装方式:

    • 新手直接点  “Install Now” (默认装到 C 盘,简单省事);
    • 想自己选位置就点  “Customize installation” ​ → 下一步勾需要的组件(全勾就行)→ 再下一步选安装路径(比如 D 盘)→ 点 “Install”。
  4. 等进度条走完,提示 “Setup was successful” → 点  “Close”

三、验证是否装好

  1. 按 Win+R输入 cmd→ 回车打开命令提示符。
  2. 输入 python --version回车,如果显示类似 Python 3.11.8的版本号,说明装好了。
  3. 也可以输入 python回车,进入 Python 交互界面(出现 >>>提示符),输入 print("hello")回车,能打印出 hello 就 OK。
  4. 退出交互界面输入 exit()或直接关窗口。

四、基本使用(简单说两句)

  • 写代码运行:新建个文本文件,后缀改成 .py(比如 test.py),里面写 print("你好"),然后在 cmd 里切到文件所在文件夹,输入 python test.py就能运行。
  • 用 IDLE(自带编辑器) :开始菜单找 “IDLE (Python 3.x)” 打开,直接在里面写代码、运行,适合新手练手。
  • 装第三方库:比如装 requests 库,cmd 里输入 pip install requests回车,等装完就能用了。

作为一个大部分时间在终端工作的时代,或者说未来是由 Agent 工作的时代,我开始了 CLI 开发,第一个便是拿网易云音乐练练手,所以写了 neteasecli ,在终端里搜歌、听歌、下载,不用离开命令行,多种输出格式,Agent/人类 识别友好。
主要功能:

  • 搜索歌曲/专辑/歌手/歌单
  • mpv 播放控制(播放/暂停/快进/音量/单曲循环)
  • 下载、歌词、收藏管理
  • 从 Chrome/Edge/Firefox/Safari 自动导入登录状态,不需要输密码
  • JSON 输出,方便脚本和 AI Agent 集成

Node.js + TypeScript ,跨平台( macOS/Linux/Windows ),MIT 开源。
GitHub: https://github.com/wangwalk/neteasecli

Ola HastAsgaut Mjølne Söderbom在他们在伦敦QCon关于结对编程的持续交付的演讲中提到,团队依赖于强大的单元测试和集成测试,而不是端到端的测试。使用 TDD(测试驱动开发)、结对编程和良好的设计,他们经常发布小的更改,在生产环境中测试真实的反馈,并使用功能开关来降低风险。

 

Hast 提到,他们信任他们的单元测试和集成测试,并且把它们作为一个整体。他们没有端到端测试:

 

我们通过使用良好的关注点分离、模块化、抽象、低耦合和高内聚来实现这一点。这些机制与 TDD 和结对编程相辅相成。结果是一个具有高代码质量的更好的领域驱动设计。

 

以前,他们有更多的 HTTP 应用程序集成测试,测试整个应用程序,但他们已经从这个(或只有一些愉快的案例)转向了更专注的测试,这些测试有更短的反馈循环,Hast 提到。

 

由于测试环境总是近似生产环境,并且通常与长供应链和糟糕的测试数据作斗争,他们或多或少已经停止使用它们了,Mjölne Söderbom 解释说:

 

我们更喜欢在生产环境中测试,因为在那里我们可以得到最高质量的反馈。

 

他们通过将新功能放在开关后面,并一次部署一小部分来降低风险。这是他们已经做了好几年的事情,而且效果非常好,Mjölne Söderbom 说。如果生产环境中出现故障,很容易找到、修复和回滚/前进,他补充说。

 

在之前的文章中,Hast 和 Mjølne Söderbom 提到他们的团队使用TDD进行结对和mob编程;没有单独的任务或单独的代码审查。这种方法提高了代码质量,减少了浪费,并促进了知识的共享:

 

经过多年的实践,我们最终一起工作,进行 TDD,然后部署到生产环境。我们很少在本地或测试环境中测试应用程序。这从来不是我们的主要意图;这只是我们工作方式的一个(愉快的)结果。

 

结对编程和持续集成可以相辅相成。每天多次向主服务器推送是很困难的,这会导致延迟、大型 PR 和合并问题。结对使即时代码审查、更容易的重构、更少的错误和更高的团队韧性成为可能,Hast 和 Mjølne Söderbom 解释说。

 

Hast 提到他们过去有更多的测试,测试整个应用程序的运行,但他们已经将这个减少到最低;他们通常只有一条愉快的路径测试,以及针对任何特殊错误情况的额外测试:

 

我们不能用单元测试中测试的东西,我们更喜欢在生产环境中测试。测试总是现实的近似,我们总是与长供应链和糟糕的测试数据作斗争。我们总是从生产环境中得到最好的反馈。停止使用测试环境本身从来不是一个目标,但它只是另一个令人愉快的副作用。

 

最重要的是建立反馈循环,Mjølne Söderbom 提到。反馈有助于导航和选择方向,必要时改变方向:

 

我们从我们的测试中得到最快的反馈,从生产环境中得到最好的反馈。

 

当某件事情很痛苦时,他们会更频繁地这样做,Hast 解释说:

 

我们公司今天之所以能走到这一步,是因为我们增加了部署到生产环境的频率,并在问题最严重的地方迅速得到反馈,然后修复了这些问题。这个过程已经持续了 10 年。

 

我们非常专注于开发过程中所有级别的快速反馈循环,Mjølne Söderbom 说。TDD 是我们获得早期和快速反馈的最重要的工具之一,他解释说:

 

如果你的代码难以测试,通常意味着设计有问题。代码与我们“对话”,并驱动设计。

 

许多人认为 TDD 是一个测试工具,但实际上,它是一个设计工具。Mjølne Söderbom 总结说,拥有适当的测试来实现快速流动是一个(非常好的)副作用。

 

原文链接:

https://www.infoq.com/news/2026/02/feedback-TDD-production/

当下制造业竞争日趋白热化,除了生产线效率与产品质量这两大核心抓手,供应链管理能力早已成为决定企业核心竞争力的关键变量。SRM系统作为提升供应链协同、实现降本增效的重要数字化工具,正被越来越多制造企业纳入数字化转型的重点布局中。

但问题也很现实:市面上的SRM系统五花八门,功能侧重与行业适配差异不小。对制造企业来说,选对一款真正贴合生产采购场景、口碑经得起验证的SRM系统,往往直接决定供应链数字化转型的成败。

本次盘点结合制造企业实际使用反馈与行业公开信息,重点围绕以下三大维度展开:

(1)对制造业采购场景的适配深度;

(2)功能落地后的实际效果;

(3)售后服务能力与客户续约表现。

一、正远科技:制造业定制化SRM的代表型厂商

https://www.zhengyuantech.cn/

在制造业SRM赛道里,正远科技在中小与成长型制造企业群体中口碑表现突出。其核心优势在于:对制造业采购全流程理解深、交付节奏快、系统适配灵活,尤其适合“采购流程复杂但IT团队有限”的企业。

1、低代码架构,解决制造业“流程各不相同”的硬痛点

制造业采购远比其他行业复杂:原材料、零部件、辅料、外协加工等品类采购,往往对应不同的准入规则、审批链路与交付验收方式。很多标准化SRM系统上线后最大的问题就是——“水土不服”。

正远SRM采用低代码方式构建,企业可通过拖拽配置快速调整:

(1)表单字段与校验规则;

(2)审批与寻源流程;

(3)数据报表与指标看板。

业务一变,系统也能快速同步调整,避免动辄二次开发,显著降低落地周期和适配成本。

2、全生命周期闭环,供应商管理更“可控、可追责”

正远SRM围绕制造业典型供应商管理需求,形成从准入到淘汰的闭环:

(1)准入审核:资质文件、质量体系、产能能力等集中归档;

(2)过程管理:交付、质量、响应效率指标可量化;

(3)绩效评价:支持定量+定性结合,推动分级管理更公正;

(4)风险预警:对供应不稳定因素做到提前干预。

这套逻辑的价值在制造业尤其明显:把供应商从“靠经验管”变成“靠数据管”。

3、集成能力强,打通ERP/MES/WMS消除数据孤岛

采购与生产脱节,是很多制造企业的老问题——要么采购慢导致停工待料,要么采购多造成库存积压。

正远SRM强调与ERP、MES、WMS等系统集成,实现:需求提报—采购执行—交付验收—对账结算全链路贯通,让采购决策更精准、响应更及时。

二、甄云科技:中大型制造企业采购数字化的一体化选择

甄云科技是国内采购数字化领域的头部厂商之一,源自汉得信息孵化,并长期服务中大型企业采购场景。其官方介绍提到:自2005年开始涉猎第一代产品研发、具备多年采购数字化实施经验,客户覆盖多个国家和地区。

1、一体化覆盖广,适合复杂采购体系

甄云SRM的典型优势在于“套件化、一体化”,覆盖:

(1)供应商管理

(2)寻源与询报价

(3)采购协同执行

(4)采购商城与目录管理

对采购组织层级多、品类复杂的大型制造企业而言,这种“平台型整合”更能减少系统割裂。

2、全球化能力强,多语言多币种更稳妥

(1)支持多语言、多币种与跨区域协同;

(2)服务网络覆盖多个国家和地区。

3、适配提醒:中小制造企业可能“用不满、用不起”

甄云更适合采购复杂、流程要求高、预算更充足的企业。对中小制造企业来说,可能出现:功能冗余、部署成本更高、实施周期更长的情况,选型时需要谨慎匹配。

三、商越:制造业非生产性采购口碑上升很快

商越属于SRM赛道后起之秀,公开信息显示其在2018年11月创立(商越科技)。其优势集中在“采购中台+采购商城”模式,对制造企业非生产性采购尤其友好。

1、采购商城体验好,员工自助下单显著提效

非生产采购常见痛点是:品类杂、频次高、金额小但流程长。商越通过商城化方式让员工直接自助选购,系统自动完成:比价—下单—审批—结算,大幅降低采购团队事务性工作量。

2、定位提醒:生产性采购能力偏基础

商越更适合作为非生产采购平台,或作为生产采购系统的补充。若企业以生产物料采购为主,并且对寻源、绩效、风险预警要求高,则不建议把它作为唯一核心SRM系统。

四、企企通:中小制造企业“够用+成本友好”的备选方案

企企通在业内被认为是“从供应商协同切入”的SRM厂商之一。有公开研究报道提到其在2015年底推出第一款SRM产品(爱分析),在制造、新能源、电子等行业也有客户覆盖。

1、基础采购能力完善,满足“从0到1”数字化

企企通覆盖供应商档案、订单协同、对账结算等核心能力,能满足许多中小企业对“采购线上化、信息规范化”的第一阶段需求。

2、局限性:高级寻源与深度分析能力相对弱

如果企业增长很快、采购寻源复杂(多轮竞价、专家评分、价格策略库等),则未来可能仍需升级到更强的平台型SRM。

五、制造业SRM选型建议

制造业选SRM,最重要的是一句话:适配为王。不要盲目追求“大而全”,而要优先匹配企业阶段与采购结构。

1、中小及成长型制造企业

(1)优先:正远科技

低代码灵活、制造业适配深、实施节奏快,适合作为主SRM平台。

2、大型制造企业(流程复杂/集团化/跨区域)

(1)优先:甄云科技

平台型能力强,适合构建统一采购体系与跨区域协同(官方口径覆盖10多个国家和地区)。

3、非生产性采购占比高(办公/MRO)

(1)重点考察:商越

商城体验强,适合提升“高频低值”采购效率。

4、预算有限,仅需基础采购数字化

(1)备选:企企通

够用、成本友好,更适合采购数字化起步阶段。

最后提醒:SRM系统能不能用好,不只看功能表,更取决于厂商是否真正懂制造业、是否有成熟实施体系与响应机制。建议制造企业在选型中至少做三件事:
(1)要求提供同行业真实案例与交付路径;
(2)现场体验业务流程配置能力;
(3)明确售后响应SLA与实施里程碑,避免“上线即停摆”。

一位研究员用 Anthropic 的 Opus 4.6 做了一项实验。花了 2 万刀,让 AI 生成了 10 万行的代码, 实现了一个 C 编译器,它可以在 X86 、ARM 和 RISC-V 上面构建和编译 Linux 6.9 的内核。

这是我第一次见 AI 能够完整地实现一个足够大,也足够复杂的一个项目。也基本说明,AI 离取代程序员真的很近了。

我要再去试试 Claude Code 了,想想刚买的 Gemini Ultra... 在现在这个时代,购买任何一个 AI Coding 的 plan 都不要超过一个月,你永远不知道下个月哪个模型和工具更强大一些

文章地址:
https://www.anthropic.com/engineering/building-c-compiler

最近在用 Openclaw ,bug 实在太多了,动不动就给自己搞爆炸。另外 token 实在是太贵了。不如 DeepSeek 和 kimi k2.5 划算。后来又试了一下 nanobot ,但是对新模型支持太少了,k2.5 一直报错工具无法执行。太烦人了。随后和 Opus 还有 codex 大战几百回合,手搓了一个新 bot ,使用 golang 实现,至少 provider 上不再受制于人了

链接: https://github.com/linanwx/nagobot

实现过程中学了挺多的,比如线程,Agent ,Skill ,Cron 还有会话记录,上下文压缩,说实话很多代码都没有 review 过,一直在和 AI 讨论架构,有时被气哭有时很惊艳,还挺有趣的

测试下来很惊艳,可以让 bot 去创建异步任务,去调查新闻,给自己设置提醒啥的,很有用

大部分功能都实现了,目前还在尝试设计长期记忆这块。不知道有人需要么,不过会一直更新下去

在微信的小程序里有 4.72 元余额,是通过微信充值进去的。
退款时,小程序申称退款了,微信却申称没有收到。
我投诉小程序,被微信私自关闭,要我私下打电话和小程序商量,我的钱我要去商量很奇怪,我去联系小程序,又被推给微信,说钱给了微信,
我又去联系微信,微信说钱给到了小程序,不管他们的事。
就这样我的钱进入了规则黑洞,不可见了。

昨日 V 友努力,Opus4.6 消耗了近 10 亿 token

image.png

我也紧盯报错日志,修复了不少问题(其中包括一些其他收费中转站也报错的问题。得益于自研的负载均衡报错转移逻辑,目前暂无太明显的中转站问题)

image.png

当前比较显著的问题是:V 友反馈网站连接慢

已听劝。

为了让 V 友在周末休闲时间 vibe coding 用得爽,暂时关闭 CF 小黄云,上线临时日本 IP 将延迟降低至 100ms 以下。

image.png


请允许我打个小广告:各位用得爽的 V 友可以给同事推荐一下,网站需要流量。谢谢🙏


一个免费不限量 Claude API 公益服务,请作为兜底使用。支持 OpenAI 和 Anthropic 格式。

不用注册 免费 不限量 真模型 自己服务不能用了再用这个作为兜底,别做主力使用,不保证稳定性,只保用到的模型是真的模型。

网址自行解码:aHR0cHM6Ly9vbmVkYXlhaS5hdXRvY29kZS5zcGFjZS8=

🙏赛博活佛🙏

开发了一个极其轻量的软件,用来让 Windows 的键位对齐 macOS 。
资源占用和延迟都比 ahk 和 powertoys 低( benchmark 过的。powertoys 特别拉)。
游戏外挂检测也不会冲突( ahk 会)。
还有快捷键调音量这种可以通过配置关闭的小功能。
不知有人需要吗?

现在奶茶店琳琅满目。太多种类了

但是真的健康吗。里面的牛奶是真的牛奶吗。珍珠啥的都健康吗

还有奶茶店的食材工商管理或者食品安全部门会检查吗

不求喝了能延年益寿。起码没什么致癌或者心脑血管的成分吧

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@瓒an、@鲍勃

01 有话题的技术

1、Mistral AI 发布 Voxtral Transcribe 2 系列语音转文字模型:延迟降至 200ms 以下,Realtime 模型权重开源

法国 AI 初创公司 Mistral AI 发布新一代语音转文字系列模型「Voxtral Transcribe 2」,包含实时流式模型「Voxtral Realtime」与离线批处理模型「Voxtral Mini Transcribe V2」。该系列在大幅降低推理延迟的同时,通过 $0.003/分钟的定价策略挑战现有的语音 API 市场,并对实时模型实行 Apache 2.0 协议开源。

  • Realtime 模型流式架构与低延迟:不同于传统的音频切片处理,该模型采用原生流式架构,延迟可配置至 200ms 以下。模型参数量为 4B,支持在边缘设备部署,支持包括中文、英语、法语在内的 13 种语言。
  • 高性价比与推理能效:Mini Transcribe V2 离线转录成本为 $0.003/分钟。官方数据显示,其推理速度比 ElevenLabs 「Scribe v2」快约 3 倍,且在 FLEURS 基准测试中的词错误率低于 GPT-4o mini Transcribe 和 Deepgram Nova。
  • 企业级功能集成:新增「上下文偏置」功能,允许用户提供最多 100 个专有名词或行业术语以提升识别准确率;支持精准到词级的时间戳以及多角色区分。
  • 开源与隐私部署:Realtime 模型遵循 Apache 2.0 协议开源权重。全系模型支持符合 GDPR 和 HIPAA 标准的本地化或私有云部署,支持单次处理长达 3 小时的音频文件。

「Voxtral Mini Transcribe V2」已通过 API 上线,定价 $0.003/min;「Voxtral Realtime」API 定价 $0.006/min,其模型权重已在 Hugging Face 开放下载。

HuggingFace:
https://huggingface.co/mistralai/Voxtral-Mini-4B-Realtime-2602

( @Mistral AI Blog)

2、Sarvam AI 发布「Sarvam Vision」视觉语言模型:基于 3B 参数 SSM 架构,主打 22 种印度语种文档解析

印度 AI 初创公司 Sarvam AI 推出 3B 参数的视觉语言模型「Sarvam Vision」。该模型采用 State-space 架构,旨在解决印度 22 种官方语言在文档智能领域的精度瓶颈,实现从扫描件、历史档案及复杂图表中进行端到端的知识提取。

  • 高效 SSM 架构与模块化设计:该模型基于 3B 参数的状态空间模型,集成「语义布局解析器」与「阅读顺序网络」,在保持轻量化参数规模的同时优化推理效率。
  • 覆盖 22 种印度官方语言:针对印度语种长尾效应,模型在自建的「Sarvam Indic OCR Bench」(包含 20,267 个样本)中表现优异。在 Hindi、Bengali、Tamil 等核心语种的单词准确率显著超过 Gemini 3 Pro 与 GPT 5.2。
  • 多维度文档解析能力:支持复杂表格解析、趋势线数据提取、手写体识别及多语言视觉推理。在 olmOCR-Bench 的英语表格解析及科研数学项中,其得分优于多个主流闭源模型。
  • 强化学习与可验证奖励训练:在基础模型「Sarvam Sovereign 3B」之上进行持续预训练,随后通过监督微调和基于「可验证奖励」的强化学习提升逻辑稳定性。

API 已正式上线。2026 年 2 月全月,「Sarvam AI」 平台提供免费无限量使用。

相关链接:
https://dashboard.sarvam.ai/

( @Sarvam AI Blog)

02 有亮点的产品

1、库克官宣苹果进军 AI 硬件,首款 AI 眼镜有望今年发布

科技媒体 Cult of Mac 今天发布博文,报道称在苹果本周召开的全员会议上,公司首席执行官蒂姆 · 库克首次确认,正积极筹备一系列由 AI 驱动的全新产品类别。

库克并未在会议上展示具体原型机,但向员工强调了 AI 为苹果带来的全新机遇。该媒体认为这一表态证实了业界长期的猜测:苹果正试图通过人工智能技术,重新定义用户与设备的交互方式,逐步摆脱对传统触摸屏的依赖。

在 AI 设备方面,基于目前相关爆料,目前至少有 AI 眼镜和 AI 胸针两款产品。

该媒体报道称苹果内部正加速研发 AI 智能眼镜,被视为接替 iPhone 的关键设备之一。首代产品预计不配备显示屏,而是通过集成摄像头、麦克风和扬声器,实现电话接听、音乐播放、实时翻译及逐向导航等功能。

消息称苹果会在 2026 年年底前展示该产品的初版概念,然后在 2027 年发售。至于带有显示屏的第二代版本,则可能要等到 2028 年才会问世。

在 AI 胸针方面,其尺寸类似 AirTag,混合铝合金与玻璃外壳材质,计划最早于 2027 年发布。设备正面集成了两颗摄像头(标准镜头与广角镜头),不仅能拍摄照片,还能实时捕捉用户周边的视频信息。

(@IT 之家)

2、金融科技初创公司 Veritus 获 1010 万美元种子轮融资,深耕贷款领域语音 AI 智能体

据 FinTech Futures 独家报道,美国金融科技初创公司 Veritus 已成功完成 1010 万美元的种子轮融资。本轮融资由 Crosslink 和 Threshold 领投,Emergence Capital、Surge Point、Cedar Capital 及 Rebel Fund 等机构参投。

Veritus 由 Joshua March 与前 Divvy Homes 工程师 David Schlesinger、Joey Stein 于去年共同创立,并入选了 Y Combinator 2025 年夏季批次。该公司总部位于旧金山,专门为消费贷款行业提供 AI 智能体平台。其核心技术是语音优先的智能体,能够与借款人进行符合监管要求的对话,同时支持短信、电子邮件和实时聊天。

该平台通过与贷款管理系统及记录系统集成来访问客户数据,运行全渠道的入站和出站业务。目前的部署重点集中在两个领域:

  • 申请漏斗外联: 通过电话和短信联系预选借款人,以提高转化率。
  • 早期逾期互动: 处理早期违约行为,并直接在电话中完成还款操作。

Veritus 采用双智能体架构处理复杂对话,如困境计划、费用减免及结算。在此模式下,一名 AI 智能体负责与客户沟通,另一名则在后台监测对话并向主智能体提供评估建议。

在安全性方面,Veritus 在创立之初即确立了银行级控制标准。平台具备实时个人敏感信息脱敏和令牌化功能,目前已获得 PCI、HIPAA、ISO 及 SOC Type II 等相关合规认证。

公司已上线运营五个月,客户涵盖金融科技公司、大型服务商及一家英国银行。随着种子轮融资完成,Veritus 计划通过扩充团队来加速市场扩张。其核心成员包括来自 Best Egg、高盛 Marcus 及 Robinhood 等知名机构的资深专家。CEO Joshua March 表示,市场正意识到智能体 AI 带来的运营效益,公司目标是迅速满足增长的需求,并将在业务起飞后适时启动 A 轮融资。

( @FinTech Futures)

3、AI 视频数字人平台 Synthesia 融资 2 亿美元,将打造员工技能培训 AI

总部位于伦敦的 AI 视频数字人平台 Synthesia Ltd。 宣布完成 2 亿美元的 E 轮融资,公司估值因此达到 40 亿美元。本轮融资由现有投资者 Google Ventures 领投,Evantic 和 Hedosophia 参投。包括 NVentures、Accel、Kleiner Perkins、New Enterprise Associates 等在内的多位现有投资者也参与了本轮跟投。该消息证实了去年 10 月关于由 Google Ventures 领投该轮融资的报道。

Synthesia 成立于 2017 年,主要提供利用生成式 AI 制作逼真、栩栩如生的人物视频虚拟形象的平台。公司计划利用新资金,通过其专业的视频 AI 产品重新定义员工的学习方式。其核心工具具备以下特点:

  • 个性化定制:允许用户通过网络摄像头或智能手机捕捉图像,创建个性化头像并匹配克隆声音。
  • 多语言与全身交互:生成的头像能代表用户用 30 多种语言发言,并支持全身模式,即说话时可配合手臂和手部的肢体动作。
  • 素材库资源:提供包含 230 多个预制头像的素材库,支持超过 140 种语言,适用于营销和沟通场景。

公司联合创始人兼首席执行官 Victor Riparbelli 表示,本轮融资将用于扩展公司的愿景,即利用 AI 将内容创作成本降至零,并为组织提供更具吸引力的沟通与学习方式。Synthesia 认为,未来十年内容形式将从静态的单向内容转变为由 AI 代理驱动的交互式体验,例如在自助服务终端或移动设备上实现类似视频通话的互动。

针对企业面临的员工技能提升挑战,Synthesia 将重点放在设计用于教育和技能提升的对话代理上。早期客户反馈显示,基于代理的新产品比传统格式带来了更高的参与度。鉴于此,Synthesia 表示将把教育代理作为核心战略重点,同时继续投资现有平台的功能开发。

相关链接:

https://www.synthesia.io/

( @SiliconANGLE)

4、一句指令安排全家日程:Nori 登顶生产力榜,探索家庭语音交互新形态

Domus Next 旗下的 AI 产品 Nori 近期在美国市场表现抢眼,仅凭为期一个月的内测便渗透进超 10 万家庭,发布首日更在 App 生产力榜单上一度超越 Google Calendar。该团队核心成员来自字节跳动和三星,试图将 AI 的关注点从专业工具回归大众生活,解决家庭场景中信息分散、协作低效的痛点

Nori 将共享日历、任务管理、菜谱规划等功能整合,并提供了显著的 AI 入口。用户可通过文字、语音或拍照等多种方式与 AI 交互。在实际体验中,语音成为了高效处理琐事的利器:

  • 指令执行:早期用户 Jamie 仅通过一句语音指令:「周六下午提醒爸爸送大女儿参加同学派对」,Nori 便自动创建了日程并同步至相关成员的日历,甚至自动添加了礼物购买事项。
  • 场景互动:用户在厨房随口询问晚餐建议时,系统能结合冰箱食材照片与家庭饮食限制,通过对话给出方案并生成购物清单。

尽管「简单好用」是其核心标签,但用户反馈也暴露了纯软件形态在语音交互上的局限。许多用户抱怨手机锁屏状态下无法唤醒 AI,导致厨房里随口一句「牛奶快没了」或客厅关于周末计划的闲聊无法被即时捕捉。这种对手机硬件的依赖,使得 Nori 难以获取散落在环境中的非正式信息,也阻碍了部分不习惯使用 App 的家庭成员参与协作。

针对这一瓶颈,Domus Next 正探索软硬件协同的路线。未来的硬件设备被视为一个始终在线的物理载体,它能像「耳朵」一样常驻家庭公共空间,解决手机交互的割裂问题。通过捕捉持续的、环境化的语音上下文,AI 有望从单一工具进化为真正理解家庭真实运作机制的智能体。

( @Z Potentials)

03 有态度的观点

1、ElevenLabs CEO:语音是人工智能的下一个交互界面

ElevenLabs 联合创始人兼 CEO Mati Staniszewski 在多哈 Web Summit 峰会上指出,语音正演变为人工智能的下一代主流交互界面。随着模型突破文本与屏幕的限制,语音将成为人类操控机器的核心方式。

Staniszewski 表示,ElevenLabs 开发的语音模型已不仅限于模拟情感与语调,而是开始与大语言模型的推理能力深度结合。他预见在未来几年,手机将回归口袋,人们得以便捷地沉浸于现实世界,通过语音机制直接掌控各项技术。

这一愿景已获得行业资本与巨头的广泛认可。本周,ElevenLabs 完成 5 亿美元融资,估值攀升至 110 亿美元。目前,语音交互已成为 AI 竞争的关键战场:

  • 巨头布局: OpenAI 与 Google 均将语音视为下一代模型的核心;苹果公司则通过收购 Q.ai 等动作,秘密研发常驻型语音技术。
  • 硬件演进: AI 正在向可穿戴设备、汽车等新硬件渗透,控制方式从触屏转向语音。
  • 输入变革: Iconiq Capital 合伙人 Seth Pierrepont 认为,尽管屏幕在娱乐领域仍具价值,但键盘等传统输入方式已显过时。

针对技术演进,Staniszewski 强调了「智能体化」的趋势。未来的语音系统将不再依赖逐条指令,而是通过积累持久记忆与上下文,使交互过程更趋自然。

为支持耳机等可穿戴硬件,ElevenLabs 正开发云端与本地处理相结合的混合架构,使语音成为持久伴随的工具。目前,该公司已与 Meta 展开合作,将其技术应用于 Instagram 及 Horizon Worlds,并有意探讨在 Ray-Ban 智能眼镜上的合作可能。

然而,随着语音系统更深入地嵌入日常生活,关于隐私、监控及个人数据存储的风险也随之增加,这成为该领域必须面对的严峻挑战。

( @TechCrunch)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

作者提示: 个人观点,仅供参考​

BMI计算器 在线工具分享

大家好!今天想给大家分享一个我最近用 Vue 开发的实用小工具——BMI计算器

在线工具网址:https://see-tool.com/bmi-calculator

什么是 BMI?

BMI(Body Mass Index,身体质量指数)是国际上常用的衡量人体胖瘦程度以及是否健康的一个标准。无论你是在健身、减肥,还是单纯关注身体健康,了解自己的 BMI 值都是非常重要的第一步。

为什么开发这个工具?

虽然网上有很多计算器,但我发现很多体验并不好,要么广告满天飞,要么界面陈旧。作为一个程序员,我决定自己动手,用 Vue.js 开发一个纯净、快速、好用的在线 BMI 计算器。

工具亮点

  1. 极简界面:没有繁杂的干扰信息,打开就是输入框,专注于计算本身。
  2. 即时反馈:输入身高和体重,点击计算,立刻就能看到结果。
  3. 健康评估:不仅告诉你 BMI 数值,还会根据标准判断你的身体状态(如:偏瘦、正常、超重等)以及对应的健康风险提示。
  4. 示例演示:提供“加载示例”功能,一键体验计算流程。
  5. 响应式设计:无论是在电脑还是手机上打开,体验都一样流畅。

如何使用?

使用非常简单,只需要三步:

  1. 输入你的身高(厘米/cm)。
  2. 输入你的体重(千克/kg)。
  3. 点击“计算”按钮。

工具会自动算出你的 BMI 指数,并用不同颜色的卡片直观展示你的健康状态。比如,绿色代表健康,橙色或红色则提示需要注意了。

技术实现

这个工具是基于 Vue.js 框架构建的。利用 Vue 的响应式特性,实现了数据的实时处理和界面的动态更新。UI 方面使用了现代化的设计语言,确保视觉上的舒适感。所有的计算逻辑都在前端完成,保护你的隐私,数据不会被上传。

希望这个小工具能帮助大家更好地管理自己的健康!如果你觉得好用,欢迎分享给身边的朋友。

用 Claude Code 写代码时最大的痛点:离开电脑就失联了。各种手机终端软件交互也不友好

所以做了 CCBot , 一个 Telegram Bot ,让你用手机无缝接管终端里的 Claude Code 会话。

它不封装 SDK ,只是通过 tmux 启动 Claude 进程,然后服务和 tmux 进行交互:读 tmux 的输出、发按键给 tmux 等等。使用 tmux attach 又可以继续在电脑操作了,完整的上下文都在。

Imgur

https://github.com/six-ddc/ccbot

有什么远程桌面软件支持在 4K 屏幕下 缩放 200% 显示远程桌面的 1080p 内容,避免本地的缩放设置同步到服务器引起显示内容错乱;
因远程是处于内网不能直接上网,通过 VPN 后然后通过端口映射方式访问的;
第三方需要上外网的方案都不可行

其实我们不必回避看完书就忘的问题,因为大多数人看书都是会忘的。其实人类的大脑就是这么设计的,它会过滤掉大部分不重要的信息,只保留下重要的信息。如果真的想要记住一本书重要的知识,需要反复阅读,反复思考,反复练习。

在前 AI 时代,做读书笔记是一件非常耗费精力的事情,但是有大模型之后,我们可以在做笔记这件事上偷偷懒。

注意:做笔记可以偷懒,但是思考和反复回看是绝对不能偷懒的。

那么有什么好用的工具呢?朋友们,有的!欢迎使用 ebook-to-mindmap!简单来说,你可以通过 ebook-to-mindmap 把 pdf 或 epub 格式的电子书转换为分章节的思维导图或者文字总结。

思维导图模式

点击这里即可立即体验。整个网页应用功能比较简洁,大家可以直接上手,当然,下面我也会比较详细地介绍一下这个应用的使用方法🤗

模型配置

使用 ebook-to-mindmap 的第一步是配置模型。它和很多 AI 应用一样,都是选择 byok( Bring Your Own Key )的模式,你可以在这里配置你自己的大模型。

这里还是要强调一下,在 ebook-to-mindmap 填写 Key 时不必担心 Key 泄露,因为 Key 只是保存在你自己的浏览器里,请求也是直接从你的浏览器发送到大模型提供商的服务器的。你可以在浏览器的开发者工具里查看网络请求,确认这一点。同时,ebook-to-mindmap 作为一个开源项目你可以随时检视它的代码,还可以自己部署一个属于你的 ebook-to-mindmap 。

说回模型的选择,可能很多人会担心使用 ebook-to-mindmap 的花费太高,其实倒也不必,毕竟现阶段还是能找到很多免费或者低价的大模型。我的首推还是 openrouter,你只需要充值 10 刀,就能获得一个较大的免费模型(其中包括一些 deepseek 变体、最近小米的新模型、之前一段时间还有 grok )使用额度,基本上一天让它处理好几本书都没问题了。其他详细推荐可以参考免费和付费 AI API 选择指南

model list

在获取到 Key 后如上图填写信息即可。

你还可以配置多个模型,点击左侧的星星后会成为默认模型,后续处理时默认使用星标的模型:

model list

生成笔记

配置模型后,在主页选择电子书即可。之后 ebook-to-mindmap 会自动识别电子书的格式,然后开始识别章节:

AI 总结页面

提示:如果 epub 无法获取到章节,可以在设置里勾选使用 Spine 获取章节

章节识别成功后,选择你需要总结的章节,或者使用分组功能(可以使用快捷键 Ctrl + G )把零碎的章节组合成分组一起发送给 AI 处理。

一切准备好后,点击开始解释按钮即可开始生成笔记。

默认情况下,ebook-to-mindmap 会生成思维导图,你也可以点击小齿轮切换到文字总结模式:

模式切换

虽然有整书思维导图生成功能,但是如果书的内容比较长,AI 可能吃不下这么长的上下文,所以建议还是分章节生成,最后系统会自动拼接

生成笔记如果想要中途取消,放心点取消就好,之前处于完成状态的章节会被缓存,不用担心之后需要再浪费 Token 重新生成。

提示词

举个例子吧,你在提示词列表里添加一个“小·红书风格”提示词,在生成环节选择这个提示词,就能直接生成小红书风格的笔记。

小红书风格

不止小红书风格,你也可以让 AI 只简单地提取该章节最重要的 5 个观点,帮助你对整本书的主要内容有一个简要的了解。

你还可以使用“反论法”提示词:

选取本章的核心论点或思想,并探索它的对立面。如果作者要为相反的观点辩护,他们需要证明什么?文本中是否有无意间支持反面观点的蛛丝马迹?

参考分享几条有意思的 NotebookLM 提示词这篇文章,里面有几个有趣的提示词,或许能让你眼前一亮。

内容管理

ebook-to-mindmap 充满了下载按钮,是的,你生成的数据必须还是属于你的!你可以很轻易地把数据拿出来!

导出的文字内容可能是 markdown 文件或是思维导图 json 文件。

markdown 文件可以直接阅读,或者导入到 Obsidian 、Notion 等笔记软件再细化修改。

思维导图 json 文件可以使用 mind-elixir-core 等前端库渲染,当然,如果你是技术人员,理解 json 数据的结构你也可以随意修改和渲染。

思维导图亦可导出为图片,点击思维导图页面右上角的下载按钮即可。

格式选择

最后谈谈电子书格式的问题,ebook-to-mindmap 支持 pdf 和 epub 格式的电子书,但是这两种格式如何选择呢?

或许大家都会比较喜欢看 pdf ,因为看起来比较工整,但是使用 ebook-to-mindmap ,我还是比较推荐 epub 格式的电子书。

稍微讲一下 pdf 和 epub 的原理吧。

pdf 的特点是在任何设备上看起来都一样,这就很容易想到,其实 pdf 的排版是非常固定的,而且更重要的是,pdf 的排版是没有语义的。也就是说,人类能看到一个标题是加粗黑字,但是 pdf 本身并不知道这是一个标题,它只是知道这一块区域的文字是加粗黑字的。

更严重的问题是 pdf 如果有一些复杂的排版,例如在角落嵌入一段文字,在解释的时候就很难理解那段文字的意义。所以,大模型理解 pdf 的难度会比较大。

而 epub 格式就不一样,它更像是一张网页,有语义,有结构,有层次,就跟 HTML 差不多。但缺点就是人类看来这样的排版有点粗糙,在不同的阅读器上显示效果也不同。在某些落后的 epub 阅读器上阅读时可能会觉得排版很有年代感。但是大模型不在乎排版,有清晰的结构就能得到好的输出结果。

写在最后

总的来说,ebook-to-mindmap 是一个能帮你快速复习或者把书本变薄的工具。在这个信息爆炸的时代,高效地获取和整理知识变得越来越重要。希望这个小工具能成为你阅读路上的得力助手,让你把更多的时间花在深度思考和理解上,而不是机械地摘抄。

如果你觉得这个项目对你有帮助,欢迎在 GitHub 上点个 Star ⭐️ 支持一下!如果你有任何建议或发现了 bug ,也欢迎提 Issue 或者加入讨论。

Happy Reading!

其实我们不必回避看完书就忘的问题,因为大多数人看书都是会忘的。其实人类的大脑就是这么设计的,它会过滤掉大部分不重要的信息,只保留下重要的信息。如果真的想要记住一本书重要的知识,需要反复阅读,反复思考,反复练习。

在前 AI 时代,做读书笔记是一件非常耗费精力的事情,但是有大模型之后,我们可以在做笔记这件事上偷偷懒。

注意:做笔记可以偷懒,但是思考和反复回看是绝对不能偷懒的。

那么有什么好用的工具呢?朋友们,有的!欢迎使用 ebook-to-mindmap!简单来说,你可以通过 ebook-to-mindmap 把 pdf 或 epub 格式的电子书转换为分章节的思维导图或者文字总结。

思维导图模式

点击这里即可立即体验。整个网页应用功能比较简洁,大家可以直接上手,当然,下面我也会比较详细地介绍一下这个应用的使用方法🤗

模型配置

使用 ebook-to-mindmap 的第一步是配置模型。它和很多 AI 应用一样,都是选择 byok( Bring Your Own Key )的模式,你可以在这里配置你自己的大模型。

这里还是要强调一下,在 ebook-to-mindmap 填写 Key 时不必担心 Key 泄露,因为 Key 只是保存在你自己的浏览器里,请求也是直接从你的浏览器发送到大模型提供商的服务器的。你可以在浏览器的开发者工具里查看网络请求,确认这一点。同时,ebook-to-mindmap 作为一个开源项目你可以随时检视它的代码,还可以自己部署一个属于你的 ebook-to-mindmap 。

说回模型的选择,可能很多人会担心使用 ebook-to-mindmap 的花费太高,其实倒也不必,毕竟现阶段还是能找到很多免费或者低价的大模型。我的首推还是 openrouter,你只需要充值 10 刀,就能获得一个较大的免费模型(其中包括一些 deepseek 变体、最近小米的新模型、之前一段时间还有 grok )使用额度,基本上一天让它处理好几本书都没问题了。其他详细推荐可以参考免费和付费 AI API 选择指南

model list

在获取到 Key 后如上图填写信息即可。

你还可以配置多个模型,点击左侧的星星后会成为默认模型,后续处理时默认使用星标的模型:

model list

生成笔记

配置模型后,在主页选择电子书即可。之后 ebook-to-mindmap 会自动识别电子书的格式,然后开始识别章节:

AI 总结页面

提示:如果 epub 无法获取到章节,可以在设置里勾选使用 Spine 获取章节

章节识别成功后,选择你需要总结的章节,或者使用分组功能(可以使用快捷键 Ctrl + G )把零碎的章节组合成分组一起发送给 AI 处理。

一切准备好后,点击开始解释按钮即可开始生成笔记。

默认情况下,ebook-to-mindmap 会生成思维导图,你也可以点击小齿轮切换到文字总结模式:

模式切换

虽然有整书思维导图生成功能,但是如果书的内容比较长,AI 可能吃不下这么长的上下文,所以建议还是分章节生成,最后系统会自动拼接

生成笔记如果想要中途取消,放心点取消就好,之前处于完成状态的章节会被缓存,不用担心之后需要再浪费 Token 重新生成。

提示词

举个例子吧,你在提示词列表里添加一个“小·红书风格”提示词,在生成环节选择这个提示词,就能直接生成小红书风格的笔记。

小红书风格

不止小红书风格,你也可以让 AI 只简单地提取该章节最重要的 5 个观点,帮助你对整本书的主要内容有一个简要的了解。

你还可以使用“反论法”提示词:

选取本章的核心论点或思想,并探索它的对立面。如果作者要为相反的观点辩护,他们需要证明什么?文本中是否有无意间支持反面观点的蛛丝马迹?

参考分享几条有意思的 NotebookLM 提示词这篇文章,里面有几个有趣的提示词,或许能让你眼前一亮。

内容管理

ebook-to-mindmap 充满了下载按钮,是的,你生成的数据必须还是属于你的!你可以很轻易地把数据拿出来!

导出的文字内容可能是 markdown 文件或是思维导图 json 文件。

markdown 文件可以直接阅读,或者导入到 Obsidian 、Notion 等笔记软件再细化修改。

思维导图 json 文件可以使用 mind-elixir-core 等前端库渲染,当然,如果你是技术人员,理解 json 数据的结构你也可以随意修改和渲染。

思维导图亦可导出为图片,点击思维导图页面右上角的下载按钮即可。

格式选择

最后谈谈电子书格式的问题,ebook-to-mindmap 支持 pdf 和 epub 格式的电子书,但是这两种格式如何选择呢?

或许大家都会比较喜欢看 pdf ,因为看起来比较工整,但是使用 ebook-to-mindmap ,我还是比较推荐 epub 格式的电子书。

稍微讲一下 pdf 和 epub 的原理吧。

pdf 的特点是在任何设备上看起来都一样,这就很容易想到,其实 pdf 的排版是非常固定的,而且更重要的是,pdf 的排版是没有语义的。也就是说,人类能看到一个标题是加粗黑字,但是 pdf 本身并不知道这是一个标题,它只是知道这一块区域的文字是加粗黑字的。

更严重的问题是 pdf 如果有一些复杂的排版,例如在角落嵌入一段文字,在解释的时候就很难理解那段文字的意义。所以,大模型理解 pdf 的难度会比较大。

而 epub 格式就不一样,它更像是一张网页,有语义,有结构,有层次,就跟 HTML 差不多。但缺点就是人类看来这样的排版有点粗糙,在不同的阅读器上显示效果也不同。在某些落后的 epub 阅读器上阅读时可能会觉得排版很有年代感。但是大模型不在乎排版,有清晰的结构就能得到好的输出结果。

写在最后

总的来说,ebook-to-mindmap 是一个能帮你快速复习或者把书本变薄的工具。在这个信息爆炸的时代,高效地获取和整理知识变得越来越重要。希望这个小工具能成为你阅读路上的得力助手,让你把更多的时间花在深度思考和理解上,而不是机械地摘抄。

如果你觉得这个项目对你有帮助,欢迎在 GitHub 上点个 Star ⭐️ 支持一下!如果你有任何建议或发现了 bug ,也欢迎提 Issue 或者加入讨论。

Happy Reading!