2026年4月

音乐播放器

新版播放器

OpenList

旧播放器

源代码已经找不到了

如果对音乐播放器有相关经验,或者对音乐播放器感兴趣,或者分享一些你觉得好听的音乐,可以一起讨论一下,在本帖回复即可。

另外 IPFS 可以利用起来 IPFS

什么是 TLMC

TLMC,即 "Touhou Loseless Music Collection" 的缩写。(Touhou Losey Music Collection)

点赞过 100 做一个 miHoYo (大概 60 多 GB 音乐) 的音乐播放器

Apple Logic Pro 12.2 发布 - 专业音乐制作 (音频编辑)

Apple Creator Studio - Logic Pro 12.2 + MainStage 4.2

请访问原文链接:https://sysin.org/blog/apple-logic-pro/ 查看最新版。原创作品,转载请保留出处。

作者主页:sysin.org


Logic Pro

妙想成声

用 Logic Pro 在 Mac 和 iPad 上做音乐,感觉就是不同凡响。有丰富的乐器和效果供你取用,还有智能工具帮你创作节拍、谱曲和混音。无论创作还是剪辑音频,你都能大展音乐才华。

16 英寸 MacBook Pro 和 13 英寸 iPad Pro 屏幕均显示 Logic Pro。

16 英寸 MacBook Pro 和 13 英寸 iPad Pro 屏幕均显示 Logic Pro。

全新 iPad 和 Mac 版 Logic Pro 带来突破性的音乐创作体验。

Mac 与 iPad 版 Logic Pro 面向 Apple Creator Studio 订阅用户及选择一次性购买 Mac 版 app 的用户推出一系列新功能,支持音乐艺术家并帮助创作者为视频内容配上原创音乐。这些强大、直观、智能的新工具为节拍制作、歌曲创作、混音等创意工作提供灵感。

Logic Pro

Mac 与 iPad 版 Logic Pro 为音乐创作加速并提供灵感,助艺人和创作者打造原创歌曲和音频声轨。

Logic Pro

本领先声夺人,
创意一鸣惊人。

Logic Pro

  • 使用实时循环乐段,以全新方式进行音乐创作和即兴演奏。
  • 借助采样器和快速采样器将声音转化为乐器 (sysin)。
  • 通过步进音序器来快速制作鼓点节拍和旋律模式。
  • 利用 Logic Remote 在 iPad 或 iPhone 上掌控乐曲的创作。

Logic Pro MainStage 插件和音效

MainStage 3

舞台音效,媲美录音室效果。

现在,将你的 Mac 变身现场演出装备。凭借不计其数的各种插件和音效选择,你可以让键盘、吉他或演唱表现令观众耳目一新,难以忘怀。

更新记录

Logic Pro 12.2,2026 年 4 月 10 日

杜比全景声混音试听

  • 导出可在 iPhone、iPad 或 Mac 上播放的轻量化可共享文件,以试听空间音频混音在 Apple Music 上流播放的效果

Step Reflex 内容包

  • 准备好舞动起来吧!Step Reflex 的“现代车库”通过粗犷的重低音能量、沉浸式环境氛围和一点点电子舞曲魔力,让 90 年代/21 世纪初英国车库音乐的标志性声音焕发无暇光彩
  • 无论是创作舞池颂歌还是内省律动 (sysin),这一完整合集的强劲二步节拍、适合狂欢的合成器、深沉的低音声部和具有感染力的人声切片都能让你的音轨大放异彩
  • 本更新包括稳定性提升和错误修复

Logic Pro 12.0,2026 年 1 月 29 日

AI 伴奏乐手

  • 通过全新的合成器手变换轨道,并使用直观的控制创建键盘和贝斯演奏
  • 生成可弹奏音符和控制乐器的动态合成器演奏
  • 使用简单背景音为乐曲增加丰富的和声层次,或者通过调制背景音与节奏和弦增加动感和力度变化
  • 探索流行的合成器贝斯风格(包括 808 贝斯、庞普贝斯和序列贝斯)以调整低音
  • 使用和弦 ID 识别乐曲任意部分中的和弦 (sysin),供伴奏乐手自动进行跟随

声音资源库

  • 通过全新的声音资源库探索免费、内容持续增加的高级声音包合集
  • 试听任意声音包的音频并安装喜爱的内容
  • 轻松删除不再使用的声音包以释放储存空间

如何下载

Logic Pro 12.2,系统要求 macOS 15.6 或更高版本

更多:macOS 下载汇总 (系统、应用和教程)

不用看API文档,不用申请密钥。
不需要AI“看屏幕”碰运气——录一段HAR,AI精确搞定一切。
写完往 Openclaw 一丢,你负责吃小龙虾,它负责把消息发到群里。

2026年4月,AI界的地震级更新接踵而至。OpenAI 刚刚发布了Codex的史诗级更新,赋予了AI全新的 “Computer Use” 能力:它拥有了自己的虚拟鼠标,能在Mac后台“看、点、输”,替你操作几乎任何桌面应用。

全世界的开发者都在为此狂欢:“AI终于能自己干活了!”

但在聚光灯之外,真正的生产力爆破,却藏在一个你可能每天都在用、却从未想过能用来造机器人的功能里——浏览器的HAR录制

先别急着说“就这?”。如果你认为让AI“看屏幕”是唯一的自动化捷径,那你可能会白白浪费时间、金钱和算力。

今天这篇文章,就是要为你扒开 “HAR录制自动化” 的神秘面纱,并把它和顶流的 “OpenAI Computer Use” 放在天平上称一称。

看完你就知道,为什么高手都在悄悄用前者,而新手还在为后者的“幻觉误触”买单。


💥 暴击开场:为什么说“让AI看屏幕”是杀鸡用牛刀?

我们先来直视 Codex Computer Use 的真相:

OpenAI 官宣:Codex 现在可以通过 “看、点、输” 的方式,像真人一样操作你的Mac电脑和应用。它能自己移动光标,能处理“没有API的软件”,甚至能在后台并行工作。

听起来是不是无敌了?这简直就是钢铁侠的贾维斯!

冷静。我们来做一道残忍的算术题:

如果你只是想“每天在GitHub上自动创建几个Issue”或者“从公司后台导出昨天的报表”,让AI用视觉(Computer Use)来做这件事意味着:

  • 💰 巨额Token费:每一秒,AI都在疯狂截屏、识别、分析坐标。这烧的全是API费。以GPT-5.4 Computer Use API为例,每100万输出token要30美元,一个稍微复杂的网页操作跑下来,几毛钱几块钱就没了——而你原本只是想省30秒时间。
  • 🐢 极低的效率:AI必须像老年人上网一样:“哦,我看到了登录框……哦,我现在移动鼠标去点它……哦,我打一个字……”。执行一个5秒钟的操作,AI可能需要反复截图验证30秒。
  • 😵 致命的幻觉:今天它认出“提交”按钮了,明天网站UI改了一个像素,它可能就“瞎了”,对着空白处疯狂点击。

不可否认,Computer Use是操作系统级的全能王——它生来就是为了搞定那些极度非标、完全无法预测、零API的长尾死局(比如修复一个Xcode里的游戏Bug)。

但对于你每天重复千遍的“标准机械动作” 呢?用Computer Use,就是 “用巡航导弹打蚊子”——猛是真猛,贵也是真贵,而且极大概率会误炸。


🚀 降维打击:HAR录制的“精确制导”逻辑

HAR (HTTP Archive) 是什么?

它不是录屏,它是浏览器 “数据底层的监控录像”
当你在浏览器里登录、点按钮、填表单时,背后其实是你的电脑向服务器发送了一堆加密的“信件”(网络请求)。

录制HAR,就是把这些“信件”的格式、内容、收件人地址,一个字母不差地拷贝下来。

这就是 HAR录制自动化 的降维打击逻辑:

不研究视觉,不依赖API文档——直接复刻你自己的“数据对话”。

过程极其暴力:

  1. 夺舍登录态:F12 → Application → Cookies,复制一串字符。OK,现在你的AI脚本拥有了你的“通行证”。
  2. 录制核心请求:在Network里点一下录制,做一个你想自动化的操作(比如“新建任务”),然后停止。
  3. AI 逆向工程:把HAR丢给AI,对它说:“嘿,把刚才那个‘创建任务的API’给我找出来,写成Python脚本。
  4. 永动开启:AI分析出了URL、Headers、Payload结构,吐出一份精确到毫秒的执行脚本。

核心差异在这一刻体现得淋漓尽致:

维度💻 Computer Use (视觉流)🎯 HAR 录制自动化 (数据流)
核心逻辑看图识字,模拟人类鼠标键盘直接发包,模拟人类网络请求
对UI变化的容忍度零容忍 (改个样式就瞎)绝对免疫 (只要后端API没变)
执行速度30秒起步 (加载渲染、坐标定位)毫秒级 (直连服务器)
Token / 算力消耗极高 (每一帧都在烧钱)近乎为零 (一次性分析,永久复刻)
编程门槛无门槛 (理论上用嘴就行)零门槛 (你只需录HAR,AI写代码)
最适合场景一次性、跨软件、无API的罕见任务高频、重复、固定的业务流程

🧪 极限实战:15分钟 VS 30秒,用HAR再造一个飞书任务助手

光说不练假把式。我们把这两种技术拉到真实的“战场”上遛一遛。

场景假设:你是一个项目经理

每天你都要做同一件事:把“用户反馈群”里的聊天精华,手动敲到飞书多维表格里作为Bug追踪。
这件事每天花掉你30分钟,烦不胜烦,且毫无价值。

🅰️ 方案 A:使用 Codex Computer Use

  1. 操作:你对Codex说:“去飞书群里,把今天上午10点到12点标记为重要的消息,提取关键Bug,填到‘研发排期表’里。”
  2. AI执行过程

    • AI截屏,识别飞书群窗口。
    • 尝试通过图像找到“重要消息”标签(如果群聊背景换了颜色,或字体变了,可能第一步就卡住)。
    • 逐条滚动截屏,OCR识别文字。
    • 切换到多维表格,通过视觉找“添加一行”按钮。
    • 输入文字(极其缓慢)。
  3. 结果

    • 耗时:约 3-5 分钟(如果中途没点错的话)。
    • 费用:约 $0.5 - $1.0 / 次 (取决于截屏张数)。
    • 风险:一旦飞书改版UI,这条自动化链直接报废

      🅱️ 方案 B:使用 HAR 录制 + Skill 脚本

  4. 操作

    • Step 1 (5分钟):打开飞书网页版 → F12 → 录制 → 点开一条消息 → 在多维表格里加一行。导出 task.har。
    • Step 2 (10分钟):把 HAR 丢给 AI:“分析这个文件,找到‘发送群消息’和‘添加表格行’的API,生成一个 Skill。”
    • Step 3 (0分钟):AI 生成的 Python 脚本上线运行。
  5. 结果

    • 耗时第一次15分钟搭建;之后每天自动执行仅需 < 3秒
    • 费用$0.000(脚本在本地运行,不发截图)。
    • 风险:即便飞书UI改得面目全非,只要后端数据接口 /open-apis/bitable/... 没变,脚本100%照常工作

哪个才是面向生产力的解法?答案不言而喻。


🔫 终极形态:当 Skill 遇见 Openclaw——你的嘴就是鼠标

上面的技术你可能觉得:“嗯,很牛,但我还是得打开终端敲命令运行脚本?”

格局小了。

HAR录制生成的 Skill,真正的最终归宿不是你的本地文件夹,而是一个叫 Openclaw 的地方。

Openclaw 是什么?你可以把它理解为 AI 的“手”和“脚”——一个专门用来运行这些 SKILL.md 和 Python 脚本的智能体环境。

整个过程会变成这样一段魔幻现实主义体验:

  1. :花 15 分钟录好 HAR,AI 帮你生成了一个名为“飞书群发助手”的 Skill 文件夹。
  2. :把这个文件夹直接拖进 Openclaw 的聊天框(或者 @ 它并关联这个技能)。
  3. :关掉所有网页,躺在椅子上,拿起手机,对着 Openclaw 说了一句人话
“Hey Openclaw,帮我在【摸鱼小分队】群里发一条消息,就说:今晚小龙虾局,老地方,我请了AI代班写代码,必到。

⚡️ 下一秒发生了什么(Codex Computer Use 做不到的事)

  • Codex Computer Use 的视角
    它睁开眼睛,开始移动鼠标,寻找飞书图标,双击,等待加载,寻找搜索框,输入“摸鱼小分队”,点击进入,寻找输入框,打字,寻找发送按钮,点击发送。
    耗时 45 秒,费用 $0.3,且有 15% 概率点进了隔壁的“工作汇报群”酿成惨剧。
  • Openclaw + HAR Skill 的视角
    它读取了你的技能说明书,发现触发词是“发消息”和“小龙虾”。

    Openclaw 内部只干了一件事:向飞书的服务器发送了一个极简的数据包。
    数据包里写着:接收群ID是“摸鱼小分队”,内容就是那段小龙虾邀约的文字。

    耗时 0.8 秒。费用 $0.000。成功率 100%。

🦞 为什么只有 HAR 流能让你“吃着小龙虾就把活干了”?

因为 Openclaw + Skill 的组合,把 AI 的执行逻辑从 “模拟人类观察” 降维到了 “机器直接执行”

  • 没有界面渲染等待:不用等网页上那个菊花转完。
  • 没有坐标计算:不用算聊天框距离屏幕左上角是 (1345, 678)。
  • 没有误触焦虑:你不用担心 Openclaw 会不小心点开你昨晚看的淘宝链接。

这就是为什么我说:

Codex Computer Use 是让 AI 替你“看电脑”,你依然得守在旁边看着它别犯错。
Openclaw + HAR Skill 是让 AI 替你“发指令”,你完全可以关机去吃小龙虾,事情照样办妥。

🎯 完整对比表:三足鼎立,谁才是真·效率之王?

维度🖱️ Codex Computer Use📡 HAR 录制🤖 HAR + Openclaw (完全体)
操作入口对 AI 描述屏幕内容对着终端敲代码对着手机说人话
执行速度分钟级 (受UI加载限制)毫秒级 (纯后端)即时响应 (边聊边干)
执行体验像在看一位老爷爷用电脑像在看黑客跑脚本像在吩咐一位隐形的贴身秘书
安全性有概率点错、误删只发指定请求只执行预设的意图
场景代入你喊 AI 去发小龙虾邀约你写了脚本定时发邀约你随口一说,Openclaw 就把小龙虾局组好了
费用💸💸💸💸💸💸💸 (几乎为0)

🛠️ 从零到一:实操路线图(保姆级对比版)

好了,如果你已经被我说服,这里有一份 “HAR流”独家的极简生存指南

第一关:获得AI的“肉身”——处理认证

  • Computer Use 做法:眼睁睁看着AI笨拙地输入账号密码,或尝试保存全屏Cookies。
  • HAR流做法:直接把 Cookie 字符串复制粘贴到脚本的环境变量里。这串字符就是你浏览器的临时身份证,AI拿着它就能畅通无阻。

第二关:传授“武功秘籍”——提取关键操作

  • Computer Use 做法:费尽心机写 Prompt:“你要先看左边,找到蓝色的按钮……”
  • HAR流做法直接把 HAR 扔给 AI。

    你可以这样对 AI 说:
    “在这个HAR文件中,找出向 https://api.xxx.com/task/create 发送请求的那一条记录。把里面的数据格式提取出来,把标题和描述替换成参数,生成一段可运行的脚本。”

第三关:组装“战斗指令”——编写 Skill.md

无论哪种技术,AI都需要明确的指令。

  • Computer Use 说明书:长达10页的屏幕坐标描述和异常重试分支。
  • HAR流说明书:只需要用大白话告诉AI工作流:

    1. 先检查本地的 Cookie 文件有没有过期。
    2. 执行创建任务的脚本,标题用刚才你说的话。
    3. 如果返回成功就报喜,如果返回失败就提醒你重新登录网页。

第四关:终极部署——丢进 Openclaw

  • 将写好的技能说明和脚本放在一个文件夹。
  • 拖入 Openclaw。
  • 从此,你只需要说话。

💎 写在最后:AI 时代的打工哲学

别再盯着那炫酷的、会自己动鼠标的“桌面幽灵”羡慕不已了。

真正的生产力解放,从来不是看 AI 表演怎么费力地点点点,而是让 AI 在你看不见的地方 ,把事情办得妥妥的。

今晚就去吃小龙虾吧。
打开浏览器,录下那个你最讨厌的“发日报”操作,丢给 AI 生成一个 Skill,然后塞进 Openclaw。

明天开始,你负责思考,它负责发送。
这,才是对重复劳动最优雅的复仇。


如果这篇文章对你有帮助,欢迎分享给同样被重复操作困扰的朋友。

也欢迎在评论区聊聊:你最想自动化哪个网站的操作?或者是——你打算让 Openclaw 帮你往哪个群里发小龙虾邀约?

Apple Final Cut Pro 12.2 发布 - 专业后期制作 (视频剪辑)

Apple Creator Studio - Final Cut Pro 12.2 + Compressor 5.2 + Motion 6.2

请访问原文链接:https://sysin.org/blog/apple-final-cut-pro/ 查看最新版。原创作品,转载请保留出处。

作者主页:sysin.org


Final Cut Pro

上演大智慧

有了 Final Cut Pro,你可以在 Mac 和 iPad 上轻轻松松创作、打磨专业品质的视频大片。它满载众多强大的智能功能,助你将帧帧画面变为幕幕经典。

Final Cut Pro

Apple 今日宣布推出 Final Cut Pro 12,开启 Mac 视频剪辑新篇章,同时推出 iPad 版 Final Cut Pro 3.0。

Mac 与 iPad 版 Final Cut Pro 新增了卓越的视频编辑工具和智能功能,为高度复杂的工作流提升效率。Pixelmator Pro 首次登陆 iPad,并专为 iPad 打造了针对触屏和 Apple Pencil 优化的独特体验。Mac 和 iPad 版音乐创作 app Logic Pro 新增 Synth Player 与和弦 ID 等智能功能,赋能所有人进行各类流行音乐的创作、制作和混音。Mac、iPad 和 iPhone 版 Keynote 讲演、Pages 文稿、Numbers 表格和无边记 app 均增添了高级内容和智能功能,供 Apple Creator Studio 订阅用户更好地表达自我、提升效率。

Final Cut Pro

Apple Creator Studio 全套神技超值集合,为各路创作人而来。

Final Cut Pro 是 Apple Creator Studio 这套精选创意 app 中的一员,套装中还包括了 Logic Pro 和 Pixelmator Pro 等众多利器。

后期制作,上演华丽一幕

剪辑、音轨、图形特效、整片输出,一气呵成。

先进的调色功能、HDR 视频支持,以及 ProRes RAW。

全新 Metal 引擎。

360° 全景剪辑,用头戴式 VR 装置来回放。

Final Cut Pro

Final Cut Pro - Compressor

强大的编码,传输,完成。

Compressor 与 Final Cut Pro 紧密整合,带来了自定义输出设置、分布式编码和丰富的传输功能。它支持 360° 全景视频、HDR、HEVC 和 MXF 输出,让你能以强大、灵活的方式导出 Final Cut Pro 项目。

Final Cut Pro - Motion

特效,特别容易。

Motion 是一款强大的运动图形工具,可帮你便捷地制作影院级的二维、三维和 360° 字幕,流畅的转场,以及逼真的实时特效。凭借全新的 Metal 引擎,Motion 还能让你以惊人的速度制作并播放特效。

版本记录

Final Cut Pro 12.2,2026 年 4 月 10 日

  • 本更新包括稳定性提升和错误修复

Final Cut Pro 12.0,2026 年 1 月 29 日

强大的智能功能

  • 通过搜索精确匹配项或使用自然语言描述,利用“听写文本搜索”快速查找素材中的所说字词或短语①
  • 发现“视觉搜索”,可使用自然语言快速轻松地查找素材中的时刻,包括物体和动作①
  • 让节拍检测分析任意歌曲以显示其小节和节拍,可让你轻松将视频编辑内容与音乐节奏对齐

快速开始

  • 通过实力派唱作人 Allie Sherlock 参与的特别演示项目深入体验编辑,以及亲自探索 Final Cut Pro 的惊艳新功能
  • 通过 App 内有关如何创建新资源库、导入媒体和将片段添加到新时间线的指南 (sysin),加速你的下一步编辑

①需要搭载 Apple 芯片的 Mac

如何下载

Final Cut Pro 12.2,系统要求:macOS 15.6 或更新版本

更多:macOS 下载汇总 (系统、应用和教程)

开发背景

op 在一家小公司上班,由于系统 Bug 较多,经常需要处理数据库中奇怪的脏数据,便以此为契机开发了这款字符串小工具,同时也增加了一些实用功能。如果你经常需要读取 MyBatis 日志、使用 DataGrip 处理数据,或者浏览 JSON ,大概率会需要这款软件。

功能介绍

项目简介

Software.png

string_utils_v2 是一个面向日常开发场景的 Electron 托盘工具,核心能力是对剪贴板文本进行快速识别与转换。应用启动后默认常驻系统托盘,使用快捷键 Ctrl+Alt+D 即可唤醒。

窗口弹出后会自动读取当前剪贴板内容,并根据内置处理器的匹配分数自动选中最合适的功能。按下 Enter 或点击按钮即可执行转换,结果会自动写回编辑区并同步复制到剪贴板。

这个项目特别适合下面这些高频场景:

  • SQL 清洗:批量处理 DataGrip 导出的 UPDATE / INSERT 语句
  • MyBatis 还原:从注解或日志中提取可执行 SQL
  • JSON 辅助处理:字段抽取、结构预览、对象差异对比
  • 文本整理:排序去重、ID 拼接、命名风格转换
  • 私有工具扩展:通过用户脚本把团队内部的小工具挂进侧边栏

使用方式

  1. 复制文本:先把待处理内容放到剪贴板
  2. 唤醒窗口:按默认快捷键 Ctrl+Alt+D
  3. 确认功能:程序会自动选中一个处理器,你也可以点击左侧图标手动切换
  4. 执行处理:按 Enter 或点击界面按钮
  5. 拿到结果:转换后的文本会自动复制回剪贴板

补充说明:

  • 窗口行为:按 Esc 或切走焦点时窗口会自动隐藏
  • 托盘菜单:可控制功能显隐、设置开机启动、修改快捷键、打开用户脚本目录
  • 无联网依赖:运行阶段的 JSON 预览服务均在本地启动

功能一览

功能 说明 预览
SQL 数据提取 针对 DataGrip 等工具导出的 UPDATE / INSERT 语句批量提取目标值
排序并去重 对多行进行排序及去重 Sort_Distinct
命名规则转换 camelCasesnake_casePascalCase 等风格之间切换 Naming_Convention.gif
MyBatis 注解提取 @Select / @Update / @Insert / @Delete 注解中还原 SQL Mybatis_Annotation.gif
MyBatis 日志解析 从 MyBatis 日志中拼接出可执行 SQL Mybatis_Log.gif
JSON 预览 同时尝试打开本地 jsonherojsoncrack 预览 JSON JSON_View
JSON 字段抽取 适合对象数组场景,执行时优先提取 id,否则提取每项的第一个字段;自动识别更偏向单字段对象数组 JSON_Extract
ID 拼接 在换行、逗号和 "a","b" 形式之间快速切换 ID_Join.gif
JSON Diff 将包含两个对象的 JSON 数组交给 vscode 做可视化对比 json-diff.gif

JSON 预览与对比说明

项目在启动时会尝试拉起两个本地 HTTP 服务,无需依赖公网:

  • jsoncrack:以节点图形式查看 JSON 结构,监听 9987-10087 之间的可用端口
  • jsonhero:以树形视图查看 JSON ,监听 13001-13101 之间的可用端口

说明:

  • JSON 预览:会优先尝试打开 jsonhero,同时也会打开 jsoncrack
  • JSON Diff:输入必须是一个包含两个对象的 JSON 数组,例如 [{...}, {...}]
  • VS Code 依赖JSON Diff 建议本机已安装 VS Code,并可使用 code 命令

开发的那些事

最早的时候,这个项目是为了解决 ID 转换 的需求——客服经常会给我一批以换行符分隔的订单编号,我需要批量加上引号、再用逗号分隔,然后拼成 IN("abc","甲乙丙","123") 的格式进行 SQL 查询。因为手动处理比较麻烦,加上当时对各种效率软件比较着迷,就尝试自己动手做一个。

项目起步之后,后续开发也就步入了正轨:MyBatis 日志提取 SQL 、MyBatis 注解提取 SQL 、排序去重等功能都按部就班地实现了。但用了几年后觉得界面实在太丑,于是重写了 UI ,添加了一些动画,做成了现在的 V2 版本。V2 还增加了 JSON 预览以及 JSON 比较的功能,其中 JSON 预览使用了 json-hero 和 json-crack 来实现,这两个都是我认为非常优秀的 JSON 工具。

关于 json-hero 还有一个有趣的小插曲:它是一款 Remix 全栈项目。前段时间我想把它集成到 Electron 中,在网上搜索解决方案时,竟然搜到了自己两年前的提问: https://www.v2ex.com/t/1043371 。虽然过去了 700 天,但我仍然不懂 Remix ,只是借助高速发展的 AI ,把一个大任务拆分成几个子任务,分段完成了这一功能。

当初开发时我也考虑过其他技术栈,比如 Flutter 、微软的 WPF 等,但最终还是不得不承认 Electron 开发效率是真的高

就这些了,欢迎使用。

这是我的第30篇文章。

不出意外的话,这篇发出去之后,我这个账号的全网浏览量应该就能破10万了。

我很清楚,这点数据对那些头部技术博主来说可能不算什么。但对我来说,这是一个挺重要的小节点,是我一点一点写出来的,是我努力的一个过程。

有点感慨,所以今天不打算讲什么技术,就当是一次随便的记录,想到什么写什么,说说我和计算机的故事。


我一开始选择计算机,其实没有什么特别的理由。

高中毕业的时候,和大多数人一样,在网上刷视频、看各种“专业推荐”,听别人说计算机好就业、薪资高、有前景。听得多了,就默认这是一个“正确答案”。

于是我就这样,稀里糊涂地报了本地一所一本学校的计算机科学与技术专业。

没有热爱,也没有规划,更谈不上什么目标。

说白了,就是觉得“好像不错”。


大学前两年,其实没什么好说的。

上课听一听,作业写一写。没有系统地学技术,也没有认真做过项目。每天过得不算颓废,但也谈不上有方向。

那个时候的我,对未来是模糊的。

不知道自己要不要考研,不知道要不要找实习,也不知道自己以后能不能靠这个专业吃饭。

很多事情都在“以后再说”。


真正开始改变,是在大二下的暑假。

那段时间,我第一次比较认真地去想:未来应该做什么?

那一刻多少有点焦虑,但也正是这种焦虑,让我开始动起来。

到了大三上,我开始一边上课,一边系统地学Java。

从最基础的JavaSE开始,一点一点往上走,然后接着学JavaWeb,写接口、做后端逻辑。没有什么捷径,就是跟着教程敲代码,遇到问题就查资料。

过程其实挺枯燥的。

有时候一个报错能卡半天,一个接口调不通能怀疑人生。但慢慢地,我开始有一点感觉了——至少我写的东西,是能跑起来的。


真正让我有成就感的,是大三上的寒假。

那段时间我做了一个很多人都做过的项目——“苍穹外卖”。

但我不太想只是“做完”,所以在做完之后,我又自己改了一版,做成了“敕勒食驿”。在原有的基础上做了一些调整和扩展,让它更像是一个属于我自己的项目。

这个过程对我来说挺重要的。

因为我第一次从“照着做”,变成了“试着改”,也第一次开始思考这个功能为什么这么设计,而不是单纯地跟着敲。

虽然现在回头看,项目也没有多复杂,但在当时,那种“这是我自己做出来的东西”的感觉,还是挺真实的。


后面我又系统学习了LangChain基础,写了一些简单的智能体小项目。

我很清楚,我学的这些都还很浅,很多只是入门级别,远远谈不上深入。但我开始慢慢享受这个过程——把一个想法变成代码,再让它跑起来。

这种感觉,比单纯刷视频要踏实很多。


说到这里,其实还要说一件对我影响挺大的事——写公众号。

我从小语文还不错。在我们当地的重点高中,我一个理科生,语文成绩最高考过全校第二。初中毕业的时候,我甚至认真考虑过学文科。

所以我一直有一个想法,就是希望有一个地方,可以长期写点东西。

今年2月,我在多个平台创建了这个账号“程序员小崔日记”。2月7号,发了第一篇文章,写的是我用TraeCN做一个小游戏的使用感受。


刚开始那几天,其实挺“上头”的。

每天都有很多想写的东西,选题一大堆,发完文章就盯着后台看数据。现在回头看,反而觉得那段时间挺珍贵的。因为那时候写东西很纯粹,就是想表达,没有太多关于“涨粉”“数据”的压力。


到了大三下,我做了一个决定:考研。

不是因为别人都在考,而是我自己觉得,我现在的基础还不够扎实,很多东西只是刚刚接触,还没有形成体系。

我希望再给自己一点时间,把基础打牢一点,也顺便提升一下学历。

当然,我也没有打算完全“只考研”。

这段时间我在备赛蓝桥杯,也在刷一些算法题。等到暑假,我还想找一段时间比较短的实习提升一下自己。

另外,我还想完整做一个APP,从设计到实现整个流程走一遍,看看能不能申请一个软著。

这些事情不一定都能做好,但我想试一试。


我一直觉得,我不是什么很厉害的人。

没有特别突出的天赋,也没有特别亮眼的经历,走的也不是那种“开局就领先”的路线。

但至少现在,我是愿意花时间去做一些事情的。

而且,说出来可能有点意外——我现在其实挺喜欢计算机的。

不是一开始就喜欢,而是在不断写代码、做项目的过程中,慢慢产生的那种感觉。

我越来越觉得,做一件事情,最重要的还是你愿不愿意持续去做。

兴趣不是一开始就有的,很多时候,是在投入之后才慢慢长出来的。


写这些,其实也是想给和之前的我一样迷茫的人一点参考。

如果你现在也不知道该做什么,其实不用想太远。

先做一点点就行。

学一点东西,写一点代码,哪怕很简单,都比停在原地要好。

很多事情,是走着走着才清楚的。


这是一篇有点碎的记录。

写到第30篇,我也算是坚持了一段时间。

我还是会继续写下去,也会继续做项目、学技术。

希望以后能做出更像样的东西,也能写出更有价值的内容。


一篇碎碎念,聊以自娱,聊以共勉。祝福大家都能有美好的未来,这个世界一定缺你不可。


如果你刚好看到这里,也愿意的话,可以点个关注。

我们一起慢慢变强。

本文由mdnice多平台发布

背景:
平日活动范围内只有工农中建,与招商素无交集。
前几年为国接盘,只有招商接该楼盘组合贷,遂办卡专做还款之用,关闭一切多余功能。
今天一觉醒来居然发现半夜三更被偷偷签约云闪付和银联在线支付。
要是不注意看短信就被他得逞了。
真是令人作呕。。

开发者朋友们大家好:

这里是 「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@koki、@鲍勃

01 有话题的技术

1、腾讯发布并开源混元世界模型 HY-World 2.0

腾讯混元团队日前正式发布并开源了多模态世界模型 HY-World 2.0。该模型支持通过文本、图像和视频等多模态输入,自动生成、重建并模拟可交互的完整 3D 世界。

与以往仅生成像素级视频的模型不同,HY-World 2.0 直接输出 Mesh、3DGS 和点云等真正可编辑且持久化的 3D 资产,能够无缝导入 Unity、Unreal Engine 等主流游戏引擎进行二次开发

其不仅原生具备 3D 一致性,还内置了支持物理碰撞和物理感知移动的交互式角色探索模式。

目前,官方已在 GitHub 和 Hugging Face 等平台开源了技术报告、WorldMirror 2.0 的推理代码与模型权重,其余核心模块代码及权重也即将陆续释出。

https://github.com/Tencent-Hunyuan/HY-World-2.0

https://huggingface.co/tencent/HY-World-2.0

(@橘鸦 Juya)

2、OpenAI 发布 Codex 更新:集成 gpt-image-1.5,支持视觉驱动的背景计算机操控

OpenAI 宣布 Codex 完成多模态能力重构,从单一的代码文本生成演进为「视觉-操作」闭环系统。新版本通过集成 gpt-image-1.5 模型与计算机操控(Computer Use)技术,使智能体能够感知 UI 像素、自主跨应用执行任务,并直接在开发工作流中生成与迭代视觉资产。

像素级背景计算机操控(Background Computer Use)基于多模态视觉感知,Codex 能够识别屏幕元素并驱动独立光标进行点击与输入。支持在 macOS 背景环境中多智能体并行操作,无需 API 即可通过视觉反馈完成前端调试、应用测试及复杂 UI 交互。

gpt-image-1.5 原生集成:Codex 现支持在代码编辑器内直接调用图像模型。开发者可结合代码逻辑与屏幕截图,生成并迭代产品原型图、前端视觉组件及游戏素材,实现从代码到视觉资产的同环境转换。

多模态交互浏览器与富媒体预览:内置浏览器支持开发者在页面直接标注(commenting)以提供视觉指令;侧边栏新增对 PDF、电子表格、幻灯片及文档的深度解析与预览,增强了非文本类工程文档的上下文提取能力。

长效记忆(Memory)与多模态自动化:支持跨会话保留视觉偏好与操作修正记录。智能体可根据 Google Docs 评论、Slack 消息及 Notion 截图的多维上下文,自动规划并执行跨度数周的长周期开发任务。

MCP 插件体系扩展:新增 90 多个插件支持,通过模型上下文协议(MCP)整合 Atlassian Rovo、CircleCI、GitLab 等工具,使智能体能够在视觉操作的同时,通过标准化接口获取深度技术上下文。

参考链接:

https://openai.com/index/codex-for-almost-everything/

( @OpenAI)

3、OpenMOSS 开源音频统一理解模型 MOSS-Audio

OpenMOSS 团队正式开源 MOSS-Audio 音频统一理解模型。该模型通过模块化架构整合了语音识别、环境声感知、音乐分析及复杂音频推理能力,实现了极高精度的词级/句级时间戳定位,在多项音频理解基准测试中以 4B/8B 参数规模超越了更大尺寸的开源及闭源模型。

  • DeepStack 跨层特征注入机制:不同于传统仅提取编码器顶层特征的方案,MOSS-Audio 选取编码器早期和中间层特征,通过独立投影注入 LLM 前几层。该架构有效保留了韵律、音色、瞬态事件及局部时频结构等底层声学细节
  • 显式时间感知表示(Time Marker):在预训练阶段按固定时间间隔插入显式时间标记,使模型在统一文本生成框架下具备细粒度时间定位能力。其在 AISHELL-1 上的 AAS 指标(35.77)相比 Qwen3-Omni 和 Gemini-3.1-Pro 实现了数量级领先。
  • 13 维度细粒度语音描述能力:支持对性别、年龄、口音、音高、音量、语速、音色质感、情绪及个性特征等 13 个维度进行结构化分析,MOSS-Audio-8B-Instruct 在综合评分中位列 SOTA。

  • 思维链(CoT)与推理增强:MOSS-Audio-8B-Thinking 版本通过 CoT 训练与强化学习,支持对复杂音频内容进行多跳推理,其通用音频理解平均准确率达到 71.08,超越了部分 30B+ 规模的开源模型。

通用音频描述 Demo:

<think>

音档内容是一位男性说话者,语气带有自信和些许夸耀。说话者透过一连串反问句来强调自己的经历与能力,句末常带有上扬的语调,例如「你干过吗?」. 语速整体中等偏快,尤其在列举成就时更为明显。内容围绕说话者声称自己完成了许多令人惊叹或不寻常的事情,例如跳过楼、与坦克近距离接触(被坦克压过)、野外生存、吃遍各种蚯蚓、开飞机、坦克漂移,以及完成两项电影史上的首次活动(《战狼 1》、《战狼 2》)。说话者在[00:08]处有轻微的口腔音。最后以「我觉得这是我最大的成就」作结,语气显得相当肯定。整体语篇结构是列举式陈述,透过对比来突显自身与众不同之处。音档中没有明显的背景噪音或其他说话者。说话者在[00:00]-[00:06]、[00:07]-[00:13]、[00:15]-[00:20]及[00:23]-[00:29]进行了多次提问和陈述,其间穿插了短暂停顿,如[00:06]和[00:13]的停顿。这些停顿有助于听者消化信息,并在说话者转换话题或强调下一点之前制造悬念。例如,在[00:25]提到「中国电影人之前没人干的事儿」时,语气略带自豪。最后的陈述语气坚定。

</think>

说话者以一连串充满自信的反问句开场,列举了自己多项惊人的个人经历,包括完成电影史上的重要拍摄以及多项常人难以企及的举动。其语气坚定,句末语调上扬,强调个人成就的独特性,并在结尾处以肯定的语气总结,认为这些是他的最大成就。

GitHub:

https://github.com/OpenMOSS/MOSS-Audio

HuggingFace:

https://huggingface.co/collections/OpenMOSS-Team/moss-audio

(@模思智能)

02 有亮点的产品

1、Claude 桌面端发布 Bluetooth API:支持硬件设备实时监听智能体状态

Anthropic 在 Claude 桌面应用(Cowork 与 Code 模式)中上线原生 Bluetooth API。该接口允许开发者构建外部硬件设备,通过蓝牙实时同步 Claude 的内部运行状态,实现 LLM 软件与物理世界的异步交互。

  • 支持跨模式硬件联动:Bluetooth API 覆盖 Claude 桌面端的 Cowork 与 Code 核心模式,允许第三方硬件作为 Claude 的物理外设运行。
  • 状态触发机制:硬件设备可实时监听 Claude 的特定事件,例如当智能体(agent)因安全策略挂起并「等待用户操作权限」时,触发物理信号。
  • 面向 Maker 生态的端到端交互:开发者可利用该 API 开发专用通知器、物理控制台或嵌入式交互设备(如桌面宠物),通过物理震动、光效或音频解决用户在多任务办公时错过 AI 授权请求的痛点。

https://github.com/anthropics/claude-desktop-buddy

(@felixrieseberg@X)

2、Phonely 获 A 轮融资:通过自研专用小模型集群架构实现百万级语音 AI 通话优化

语音 AI 初创公司 Phonely (YC S24) 宣布完成由 Base10 领投的 A 轮融资。该公司弃用通用大模型方案,通过自研的专用小模型集群技术栈,为保险、呼叫中心等行业提供高并发、低延迟的入站通话智能体服务,旨在通过数据驱动的脚本微调提升电话业务转化率

  • 多专用小模型(Specialized Small Models)架构:针对「信息提取」、「潜在客户识别」等特定子任务部署独立的小型化模型,替代单一大型 LLM。该方案在降低推理成本的同时,显著解决了语音交互中的高延迟问题
  • 语音转化率优化(CRO for Voice):引入类似 Web 端的转化率优化机制,支持企业根据统计反馈微调 AI 提问逻辑。数据显示,通过优化特定提问环节,业务结果产出可提升 5%
  • 规模化入站(Inbound)处理:目前每月处理数百万次跨行业通话,核心应用场景集中在广告引流后的入站咨询与初步筛选,目标在今年年底实现通话者近乎无感知的 AI 交互体验。
  • 端到端工程化优化:创始人表示延迟(Latency)已不再是技术瓶颈,当前研发重点已转向对话的逻辑准确性与「非判断性」交互体验,以消除用户面对人工客服时的心理压力

(@dessaigne@X)

3、Speechmatics 发布语音生物标记平台:15 秒采样识别 30 余种健康信号,包括 2 型糖尿病、精神压力、疲劳及抑郁症状

Speechmatics 与 thymia 宣布达成深度合作,推出集成医疗级语音转文字(STT)与临床级语音生物标记智能的联合平台。该系统能够从 15 秒的自然语音中实时提取并分析 30 多种健康指标,包括 2 型糖尿病、精神压力、疲劳及抑郁症状。

  • 15 秒采样与实时推断:系统以 15 秒为间隔处理音频流,通过分析声学(Acoustic)与语言(Linguistic)模式中的神经学特征提取健康信号,在提供标准转录的同时实时返回诊断参考。
  • 高鲁棒性多模态数据集:模型基于超过 75,000 个独特声音的动态测量数据(跨越 6 年研发)以及数百万小时的多口音语音数据训练,确保非母语及带口音语音下的识别准确率维持在 85% 以上。
  • 无硬件依赖的 API 集成:采用单一 API 接口提供服务,支持云端、本地及设备端部署;无需传感器或其他专用硬件,可直接嵌入现有语音智能体、呼叫中心系统或车载终端。

( @globenewswire)

4、Eigen 完成 1500 万美元种子轮融资:Benchmark 领投,主攻「共时性」社交智能体

AI 初创公司 Eigen 宣布完成 1500 万美元种子轮融资,由 Benchmark 领投,Pinterest 联合创始人 Ben Silbermann 及 Meta 前高管 David Singleton 参投。该公司旨在开发一种「亲社会(Pro-social)」的 AI 架构,核心逻辑是从「个人 AI 伴侣」转向创造人类用户之间的「共享、共时性体验」

  • 「互为好友」式产品架构:不同于 Replika 或 Character.ai 等主打 1 对 1 私密陪伴的路径,Eigen 试图构建一种作为「共同好友」存在的智能体,旨在增强现实社交关系而非替代社交,通过 AI 媒介实现多用户间的同步交互。
  • 「U 型」团队组织模式:公司跳过中层管理岗位,由资深技术专家直接与年轻创意人才协作。团队成员包含多名初创公司创始人及专业编剧,强调工程开发与叙事逻辑的深度耦合。
  • 对抗超个性化(Hyper-personalization)孤岛:Scherer 提出 AI 不应仅为个人定制「完美世界」,而应构建群体共享的数字环境。其技术逻辑侧重于通过 AI 智能体协调多方上下文,缓解数字化进程中个人社交原子化趋势
  • 高估值市场切入:公司目标指向 2035 年预计达 5524.9 亿美元的全球 AI 伴侣市场。种子资金将主要用于组建核心工程团队,目前产品细节仍处于隐形阶段。

( @fortune)

03 有态度的观点

1、黄仁勋:若 DeepSeek 率先在华为平台上出现,「对美国将是可怕的结果」

英伟达 CEO 黄仁勋近日在接受科技播客主持人 Dwarkesh Patel 专访时,就美国对华 AI 芯片出口管制政策发出警告

针对 Patel「向中国出售英伟达芯片可能助其训练具备网络攻击能力的 AI 模型」这一质疑,黄仁勋直言 「你的前提就是错的」

他指出,Anthropic 旗下 Claude 模型是在规模相当普通的算力上训练完成的,而此类算力在中国「大量可得」;中国拥有全球约 50% 的顶尖 AI 研究人员,算力限制反而倒逼出「极其聪明的算法」,DeepSeek 的出现「绝非无关紧要的进步」

他随即抛出核心警告:「如果 DeepSeek 第一款在华为上发布,那对美国将是一个可怕的结果。」

在他看来,极端的出口管制会形成反效果——迫使中国顶尖开源模型专门针对华为等本土硬件深度优化,一旦这些模型在华为架构上跑得最好,英伟达平台的全球吸引力将被直接削弱

如果我们被迫离开中国,这会加速他们的芯片产业发展,并迫使他们所有的 AI 生态系统专注于自己的内部架构。

黄仁勋指出,随着中国 AI 模型以开放标准向全球南方国家扩散,美国可能在长期技术标准竞争中陷入被动,而这一切的根源,正是主动放弃全球第二大市场的战略失误。

( @APPSO)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

作者提示: 个人观点,仅供参考

ssh 无法登陆,官网无法登陆是被直接干掉了吗?邮件都没有收到一封,感觉还是付费的小鸡都比这些免费的可靠啊

浦东两个地方两台 nas ,联通宽带

其中一个地方的 nas 主要上传给另一个地方的 nas ,互相备份,去年上传多了,上传从 40M 被限速到了 20M
一直以来的同步方案是 wireguard+rsync ,wireguard 是走 udp 的,限速 20M 以后,wireguard+rsync 基本也能稳定 2MB/s ,凑合用

最近发现,

  1. 上传限速 20M 被解除了,现在测速网站可以 40M 了,甚至更高到 50M
  2. 上传 udp 被猛烈的 qos 了,wireguard+rsync 只能 5Mbps ,500kB 不到还不稳定
  3. 换了 tcp+syncthing 方案,基本限速到 15~18Mbps
  4. IPv6 一样猛烈 qos ,多一些连接没什么用,这套 qos 板卡,感觉是很高级的玩意了。。

套路更高级了,现在限速都不直接限了,都没法去投诉取证了

kcp 还没试,不知道一些伪装发包的方法有没有办法破

2026 年 3 月 22 日终于通过了 Google Adsense 审核,从 2024 年 4 月 3 日开始提交审核,总共提交了 7 次,总算是通过了。到今天为止差不多一个月的时间,带来的总广告收入为 5.78 美元,虽然还很低,但起码流程上通了。

小小纪念一下,接下来继续优化 SEO ,争取广告费早日日入 1 刀

RTE 社区这次计划做一件轻松和「Keep Real」的事情:

包下一个咖啡馆,

邀请大家一起来杯咖啡,

坐下来各自 vibe coding。

We're turning coffee into compute.

未来这将成为 RTE 社区的新系列活动,首站杭州!为了让这件事情更合理,我们想了很多双关语。

RTE 开发者社区探索人和 AI 的实时互动新范式,我们的 slogan 是:

R eal T ime C onnection \& R eal T ime Engagement

所以在这里,R eal T ime C oding \& R eal T ime E xecution,实时写、实时 debug、实时互动,创造一个属于开发者的 「实时咖啡馆」(Real-Time Café)

你可以:

  • 随便坐下开始写
  • 和陌生人连上一起 build
  • 看别人 live coding / debugging / shipping

我们也将在快闪时段提供一场 40 分钟左右的 Voice AI Skill 工作坊,教大家如何快速做一个 voice agent。

到场者均提供 咖啡一杯,和 Kimi K2.6 token 无限

如果你:

  • 感兴趣实时 AI / agent / 语音
  • 或者正在 coding 某个项目

欢迎你来这里待一会儿。喝杯咖啡,写点代码,或者什么都不做

如何 vibe 进来

时间:4 月 24 日(周五)下午 1:00 - 5:40

地点:杭州拱墅区城西银泰城(报名审核通过后告知具体地址)

13:00-17:40 自由流动、签到,领一杯咖啡

特别时间段:

13:00-15:00 一起各自 vibe coding

15:00-15:40 voice ai skill 工作坊(快闪活动,可选参加)

16:40-17:40 no coding \& no AI! 拍照、聊天、欣赏人类世界!

因为是周五下午所以我们不要很紧张地跟 AI 共处而是把注意力放回自己身上在一个好的 vibe 下做一些真正想做的事情并且在活动结束前一小时放下 coding 欣赏这个人类世界------by lingo

报名链接https://luma.com/z1vodhtd

报名需经过审核,我们希望你是对实时 AI / agent / 语音感兴趣或者是正在 coding 某些项目的开发者、创业者。

可以 walk-in,不过 walk-in 也要现场报名审核噢。

附录:这些创作者都会出现在 Real-Time Cafe!

Lody

跨设备并行使用你的 Coding Agents。

In Lody, you can orchestrate your AI Coding Agents across devices, using your existing Claude Code, Codex, Kimi Code, and more. Multiple agents work in parallel based on Worktree, with PRs, CI, and Reviews synced across the entire pipeline. Teams can share agents and use group chat. From idea to merged PR --- all in one interface.

https://lody.ai

Cerul

Teach your AI agents to see

Video search today is blind. It only reads transcripts --- but over 75% of video knowledge is visual: slides, code, diagrams, whiteboards etc. Live as a Skill in every major agent.

https://cerul.ai/

EinClaw

直连 Agent 的麦克风

通过语音的方式,将你的大脑与 Agent 的大脑连接起来。任何想法,任何待办,任何项目,一句话,言出法随,记录想法,完成待办与项目。

NewBro

One bro talks, one bro works.

现在所有的 AI 产品,交互都是「回合制」的------你发一句话,AI 做一件事,你等它做完,再发下一句。NewBro 把 AI 拆成两条独立线程:一条沟通,常驻、实时、你随时能说话;一条执行,异步、后台、跑你派给它的任务。你说你的,它做它的------任务持续跑,沟通不暂停。

RustPBX

基于 Rust 编写的可编程 SIP 语音网关

基于 Rust 编写的可编程 SIP 语音网关, 自带管理 WebUI, 比 FreeSwitch 好用, 能容器部署、可观测、支持 WebRTC 和 SIP, 可以用来构建小型的呼叫中心, 也可以用来做隐私号呼叫或者通知发送到客户的手机上

项目是完全开源的,所有的代码都是用 Rust 编写(包括所有的协议、编解码),更安全和更高性能。

https://github.com/restsend/rustpbx

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

上个月,我交给大模型几份报告,让它分析用户家庭符不符合签证办理条件,它只能给出前面男主人的分析结果,后面的女主人和儿子的情况完全被忘了。我想让大模型帮我填写一下签证申请表,结果它要么识别不了申请表的字段,要么就是填错了,根本没法用。

后面我研究了一下,简单来说就是,大模型在处理复杂表格时,对“值”的理解远优于对“结构/位置”的理解,这是其核心短板。如果你只是发给它一份方案、几份简历,那它的理解力确实不错,很快就能像讲故事一样把要点讲出来。但是,在工作中,我们遇到的文件往往没有这么简单,它们有不同的章节,不同的层级,还有不同的文件格式,互相嵌套。例如一份财务报告,就包含了 8 大章 24 节 68 小点,其中还有 32 张配图以及 10 张表格,如此复杂的文档,会加速破坏 AI 理解能力。

还有一个问题就是文章的篇幅。虽说现在大模型的上下文窗口,已经能容纳百万字的小说了,把《魔戒》三部曲放进去都不成问题,可“能容纳”跟“可理解”是两个问题。如今市面上大部分的模型,理解力都相当有限,篇幅一长,后面的内容它就读不进去了,或者读一半忘一半,这时候你让它写个人物小传,甚至问它一个事件评价,它的回答都是顾头不顾尾的。

所以,平时我让大模型给我填表的时候也是这样的,它能填对内容,但是容易填错位置,而且越长的表格,错误越多,填错一个位置,手动修改特别麻烦,不如人工填了。

而且,这种问题,还是“不分模型”的。市面上有名的模型我都尝试过,或多或少都存在这个问题,越是能力差的模型,到后面越明显。

https://imgur.com/a/Guu8GR2

问题说到这里,那该怎么解决呢?

指望大模型自己进化?那恐怕是指望不上了。识别结构和层级这种事情,跟大模型“Next Token Prediction”的底层范式不一致,无论怎么进化,大模型都是要从头到尾进行识别,而非基于结构层级。

使用传统软件解决方案?传统软件不够智能,成本对于小公司来说也太高了。而且,到目前我也没有找到特别合适的方案。

总不能回归人力手搓吧?

所以,我的解决方案就是,将计就计,根据大模型的这种特性,自己做了一个填表工具,去补齐它的短板。

思路是这样的:

首先,识别并拆分文档中的独立章节,然后分批将章节内容提交给大模型处理,避免大模型“理解力超载”。其次,填表工具会把“工作经历”、“学习经历”这种需要连续多行输入的区域给识别出来,并把它们跟其它部分拆开,避免大模型混淆。此外,填表工具还会根据用户画像(如基本信息等)自动判断哪些地方是需要填的,哪些地方不用填,提高干活的精确度。

以一张大约 200 个空格的用户信息表为例,有了工具的加持,现在大模型 1 分钟就填完了,比之前快了 5-6 倍,节省了大量的 Token ;准确率也达到 90%以上,秒杀单独使用大模型填表的时候。更不用说它还能识别不同类型的资料,省得我在不同的文档格式之间转来转去了。

大家觉得有用的话,可以试用一下: https://www.gosnapfill.cn/landing?utm_source=v2ex

媒体处理功能

目录

  1. 简介
  2. 项目结构
  3. 核心组件
  4. 架构概览
  5. 详细组件分析
  6. 依赖关系分析
  7. 性能考虑
  8. 故障排除指南
  9. 结论

简介

CapCut Mate 是一个基于剪映(CapCut)的专业视频编辑辅助工具,提供完整的媒体处理功能。该系统支持视频、音频、图片和字幕的添加、处理和管理,具备强大的时间线管理和同步机制。

本系统采用现代化的架构设计,通过FastAPI提供RESTful API接口,结合剪映自动化控制技术,实现了从媒体文件解析、格式转换、时长计算到轨道分配的完整处理流程。系统还集成了智能缓存机制、批量处理能力和完善的错误恢复策略。

项目结构

项目采用分层架构设计,主要包含以下几个核心层次:

graph TB
subgraph "API层"
Router[路由层]
Schema[数据模型层]
end
subgraph "服务层"
VideoSvc[视频处理服务]
AudioSvc[音频处理服务]
ImageSvc[图片处理服务]
GenSvc[生成服务]
end
subgraph "工具层"
MediaUtil[媒体工具]
TaskMgr[任务管理器]
DraftCache[草稿缓存]
end
subgraph "剪映集成层"
JYController[剪映控制器]
Segment[片段管理]
Track[轨道管理]
end
Router --> Schema
Router --> VideoSvc
Router --> AudioSvc
Router --> ImageSvc
Router --> GenSvc
VideoSvc --> MediaUtil
AudioSvc --> MediaUtil
ImageSvc --> MediaUtil
VideoSvc --> TaskMgr
AudioSvc --> TaskMgr
ImageSvc --> TaskMgr
VideoSvc --> JYController
AudioSvc --> JYController
ImageSvc --> JYController
GenSvc --> TaskMgr
GenSvc --> JYController
TaskMgr --> Segment
Segment --> Track

核心组件

媒体处理架构

系统的核心架构围绕四个主要媒体类型构建:

  1. 视频处理模块:支持多视频源的拼接、转场效果和遮罩处理
  2. 音频处理模块:提供音频片段的精确时间控制和效果处理
  3. 图片处理模块:支持多种入场、出场和循环动画效果
  4. 字幕处理模块:提供丰富的字幕样式和动画效果

时间线管理系统

系统采用微秒级精度的时间轴管理,支持复杂的媒体片段重叠处理和智能调整机制。

sequenceDiagram
participant Client as 客户端
participant API as API网关
participant Service as 服务层
participant Cache as 草稿缓存
participant JY as 剪映控制器
participant FS as 文件系统
Client->>API : 添加媒体请求
API->>Service : 验证参数
Service->>Cache : 获取草稿对象
Service->>FS : 下载媒体文件
Service->>Service : 解析媒体信息
Service->>JY : 创建片段
Service->>Cache : 保存草稿
Service-->>API : 返回结果
API-->>Client : 媒体添加完成

架构概览

系统采用分层架构,每层都有明确的职责分工:

graph TD
subgraph "表现层"
WebUI[Web界面]
API[RESTful API]
end
subgraph "应用层"
Router[路由处理器]
Validator[参数验证器]
Formatter[数据格式化器]
end
subgraph "业务层"
MediaProcessor[媒体处理器]
TimelineManager[时间线管理器]
EffectManager[效果管理器]
end
subgraph "基础设施层"
FileSystem[文件系统]
Database[数据库]
Cache[缓存系统]
end
subgraph "外部系统"
FFmpeg[FFmpeg引擎]
JY[剪映应用]
COS[腾讯云存储]
end
WebUI --> API
API --> Router
Router --> Validator
Validator --> MediaProcessor
MediaProcessor --> TimelineManager
TimelineManager --> EffectManager
MediaProcessor --> FileSystem
TimelineManager --> Cache
EffectManager --> Database
FileSystem --> FFmpeg
Cache --> COS
EffectManager --> JY

详细组件分析

视频处理组件

视频处理组件是系统的核心功能之一,支持多视频源的复杂编排:

视频片段创建流程
flowchart TD
Start([开始处理视频]) --> ParseJSON[解析JSON配置]
ParseJSON --> ValidateParams[验证参数]
ValidateParams --> DownloadMedia[下载视频文件]
DownloadMedia --> CreateMaterial[创建视频素材]
CreateMaterial --> CalcDuration[计算时长]
CalcDuration --> CreateClipSettings[创建裁剪设置]
CreateClipSettings --> CreateVideoSegment[创建视频片段]
CreateVideoSegment --> AddTransition[添加转场效果]
AddTransition --> AddToTrack[添加到轨道]
AddToTrack --> SaveDraft[保存草稿]
SaveDraft --> End([处理完成])
ValidateParams --> |参数错误| Error[抛出异常]
Error --> End
视频处理参数详解
参数名称类型默认值描述
video_urlstring必需视频文件URL
widthnumber自动检测视频宽度(像素)
heightnumber自动检测视频高度(像素)
startnumber必需开始时间(微秒)
endnumber必需结束时间(微秒)
durationnumberend-start总时长(微秒)
maskstring遮罩类型
transitionstring转场效果名称
transition_durationnumber500000转场持续时间(微秒)
volumenumber1.0音量(0-1)

音频处理组件

音频处理组件提供精确的音频片段管理和效果处理能力:

音频时长智能处理机制
stateDiagram-v2
[*] --> 检查请求时长
检查请求时长 --> 请求时长不足
检查请求时长 --> 请求时长充足
请求时长不足 --> 使用实际时长
使用实际时长 --> 计算结束时间
计算结束时间 --> 验证时长范围
验证时长范围 --> [*]
请求时长充足 --> 检查实际时长
检查实际时长 --> 实际时长不足
检查实际时长 --> 实际时长充足
实际时长不足 --> 使用实际时长
实际时长不足 --> 计算结束时间
实际时长充足 --> 使用请求结束时间
使用请求结束时间 --> 验证时长范围
验证时长范围 --> [*]
音频效果处理

系统支持多种音频效果类型,包括场景音效、视频场景效果和角色效果:

图片处理组件

图片处理组件支持丰富的动画效果和转场处理:

动画效果映射机制
动画类型枚举类型支持效果
入场动画IntroType渐显、缩放、飞入等
出场动画OutroType淡出、缩放消失等
循环动画GroupAnimationType旋转、脉冲等

字幕处理组件

字幕处理组件提供完整的字幕样式和动画支持:

字幕样式配置
属性名称类型默认值描述
alignmentnumber1文本对齐方式
alphanumber1.0透明度(0-1)
font_sizenumber15字体大小
text_colorstring#ffffff文本颜色
boldbooleanfalse加粗开关
italicbooleanfalse斜体开关
underlinebooleanfalse下划线开关
has_shadowbooleanfalse阴影开关

剪映自动化控制

系统通过UI自动化技术与剪映应用进行交互:

剪映状态管理
stateDiagram-v2
[*] --> home : 主页
home --> edit : 进入编辑页
edit --> pre_export : 进入导出页
pre_export --> export_start : 导出开始
pre_export --> exporting : 导出中
pre_export --> export_succeed : 导出成功
export_start --> exporting : 点击导出
exporting --> export_succeed : 导出完成
export_succeed --> home : 返回主页

依赖关系分析

系统采用模块化设计,各组件间依赖关系清晰:

graph LR
subgraph "核心依赖"
FastAPI[FastAPI框架]
Pydantic[数据验证]
Uiautomation[UI自动化]
end
subgraph "媒体处理依赖"
FFprobe[媒体分析]
FFmpeg[格式转换]
PIL[Pillow图像处理]
end
subgraph "存储依赖"
COS[腾讯云存储]
Redis[缓存]
SQLite[本地存储]
end
subgraph "剪映集成依赖"
JYController[剪映控制器]
DraftParser[草稿解析器]
end
FastAPI --> Pydantic
FastAPI --> Uiautomation
Uiautomation --> JYController
JYController --> DraftParser
DraftParser --> FFprobe
FFprobe --> FFmpeg
FastAPI --> COS
FastAPI --> Redis
FastAPI --> SQLite

性能考虑

缓存策略

系统采用多层次缓存机制:

  1. 草稿缓存:内存中缓存活跃的剪映草稿对象
  2. 媒体缓存:本地缓存已下载的媒体文件
  3. 结果缓存:缓存常用的计算结果

异步处理

视频生成采用异步队列处理,支持并发任务管理和资源限制:

flowchart TD
Submit[提交任务] --> Queue[加入队列]
Queue --> Worker[工作线程]
Worker --> Lock[获取处理锁]
Lock --> Process[处理任务]
Process --> Export[导出视频]
Export --> Upload[上传到COS]
Upload --> Cleanup[清理资源]
Cleanup --> Complete[任务完成]
Worker --> Timeout[超时检查]
Timeout --> Queue

性能优化建议

  1. 批量处理:合理组织媒体文件,减少重复下载
  2. 资源复用:利用缓存机制避免重复计算
  3. 并发控制:限制同时导出的视频数量
  4. 内存管理:及时清理临时文件和缓存

故障排除指南

常见错误类型

错误类型错误码描述解决方案
INVALID_DRAFT_URL400草稿URL无效检查草稿ID格式
VIDEO_ADD_FAILED500视频添加失败检查视频文件完整性
AUDIO_ADD_FAILED500音频添加失败验证音频时长参数
IMAGE_ADD_FAILED500图片添加失败确认图片尺寸有效
INSUFFICIENT_ACCOUNT_BALANCE402积分不足充值账户余额

错误恢复策略

  1. 自动重试:对网络请求和文件下载进行有限重试
  2. 降级处理:在资源不足时使用默认参数
  3. 回滚机制:失败时自动清理已创建的资源
  4. 监控告警:异常情况及时通知管理员

结论

CapCut Mate 媒体处理功能通过精心设计的架构和完善的组件体系,为用户提供了一套完整的视频编辑解决方案。系统具备以下核心优势:

  1. 模块化设计:清晰的分层架构便于维护和扩展
  2. 自动化程度高:通过剪映自动化实现无缝集成
  3. 性能优异:异步处理和缓存机制确保高效运行
  4. 错误处理完善:全面的异常处理和恢复机制
  5. API友好:标准化的RESTful接口便于集成

未来可以在以下方面进一步优化:

  • 增加更多的媒体格式支持
  • 优化大规模批量处理性能
  • 扩展更多特效和滤镜效果
  • 提供更丰富的API文档和示例