微软开源 Phi-4 视觉混合推理小模型；Raycast 发布 Glaze，通过对话生成本地应用丨日报

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@koki、@瓒an、@鲍勃

01 有话题的技术

1、Raycast 发布 AI 对话构建桌面产品工具 Glaze

Raycast 团队近日发布新产品 Glaze，旨在通过自然语言交互实现桌面级应用的零代码开发。该工具核心解决了传统软件「通用化」导致的效率低下问题，允许用户通过对话式界面快速生成、定制并运行本地应用。

其核心技术特性有：

本地原生运行：生成的应用直接运行于用户本地计算机，支持离线使用及瞬时启动。
深度系统集成：具备传统 Web 应用不具备的底层权限，包括：文件系统访问，全局键盘快捷键，菜单栏集成以及后台守护进程。
迭代式开发：支持通过自然语言对话实时修改 UI 或功能逻辑，实现应用的动态进化。

Glaze 是 Raycast 插件生态的深度进阶版。其逻辑从「在单一容器内运行插件」转向「生成独立、全功能的桌面软件」，利用过去六年在 Raycast 开发中积累的 UI 框架和交互规范，确保生成的应用在无人工编码的情况下保持高性能与高审美一致性。

目前 Raycast 内部团队已利用 Glaze 构建了连接 GitHub 的扩展程序审核流工具，以及多种辅助内部协作的微型工具。

( @Raycast)

2、微软发布 Phi-4-Reasoning-Vision-15B 开源模型，能自主决定何时思考的小型多模态 AI

微软发布了一款 Phi-4-Reasoning-Vision-15B 模型，这是一款视觉推理模型。

它结合了高分辨率视觉感知与选择性、任务感知的推理，使其成为 Phi-4 系列中首个同时实现「看得清楚」和「想得深入」的小语言模型。

传统的视觉模型仅执行被动的感知 —— 识别图像中「有什么」。Phi-4-Reasoning-Vision-15B 更进一步，执行结构化、多步骤的推理：理解图像中的视觉结构，将其与文本上下文连接，并得出可操作的结论。这使开发者能够构建从图表分析到 GUI 自动化的智能应用。

该模型最关键的设计特征是其混合推理行为。它可以根据提示在「推理模式」和「非推理模式」之间切换：

当需要深度推理时（例如数学问题、逻辑分析）→ 启用多步推理链
当快速感知足够时（例如，OCR、元素定位）→ 直接输出以降低延迟

该模型最重要的应用领域之一，就是搭配计算机智能体使用。模型接收一个屏幕截图和自然语言指令后，可输出目标 UI 元素的标准化边界框坐标，其他智能体模型可以执行点击、滚动和其他交互。

以下是 Phi-4-Reasoning-Vision-15B 与其他模型在关键任务上的性能对比：

推理模式

非推理模式

（@极客公园）

02 有亮点的产品

1、AI 初创 Flowith 完成千万美元融资

AI 初创 Flowith 近期宣布，完成千万美元种子轮和种子+轮融资。据悉，种子轮为祥峰投资（Vertex Ventures）等机构，种子+轮为红杉中国种子基金、江远投资（LongRiver）等多家顶尖机构联合领投，融资资金将主要用于研发以及全球化市场拓展。

在生成式 AI 从语言范式走向行动范式的浪潮中，行业正经历从被动响应的 LLM 进化为具备自我规划、主动执行能力的系统（Agentic AI）。Flowith 认为，传统的对话框形态已无法承载复杂的逻辑闭环，未来的核心竞争力在于如何让模型真正在端侧具备「学习」、「执行」与「进化」的能力。

作为 AI 交互领域和 Agent 的领先探索者，Flowith 一经推出就以创新性的交互方式获取了大量关注，并领先推出了首个通用型创作智能体框架 Oracle、AI Context 知识花园、无限步骤智能体 Agent Neo、首个 OS Agent - FlowithOS等业界前沿创新产品与功能、在海内外获得了数百万深度用户。

在 2026，Openclaw 已经证明系统 Agent 的潜力，作为 OS Agent 的领先探路者，Flowith 致力于打造一个以「行动」为内核、具备更强能力和更全面工具调用性的 Agent 系统。它让 Agent 可以更进一步地融入用户的工作和生活，在用户熟悉的环境中快速接手那些繁杂的任务，彻底打破 AI 与真实物理世界/数字世界之间的执行壁垒。

祥峰投资相关投资负责人表示： 「我们正处于从感知智能向行动智能跨越的拐点。Flowith 团队在 Agentic OS 方向的深刻洞察和极强的工程执行力，使其成为了赛道中极具潜力的基础设施提供商。我们期待 Flowith 能为 AI 生态提供更稳健的进化引擎。」

( @Z Potentials)

2、华为拍摄款 AI 眼镜或 4 月份发布，搭载海思芯片

华为新款 AI 眼镜预计将于今年 4 月正式发布。 届时，该产品有望与备受期待的华为 Pura90 系列手机及第二代阔折叠屏手机、及诸多新品同台亮相。

该款 AI 眼镜支持拍照功能，搭载鸿蒙系统，支持跨端协同，同传翻译，有流光银、钛银灰、摩登黑三个颜色。今年春节期间，华为终端 BG 董事长余承东曾佩戴该尚未发布的新品，便引发了人们对于该产品即将发布的猜想。

据悉，该款华为 AI 眼镜目前已经在公司内部进行内测。由于华为不能采用高通 AR1 的芯片，大概率采用的是华为自研的海思麒麟芯片，搭载的是鸿蒙 OS，可以实现和华为手机、华为车机的跨端联动，更好地发挥其独特的生态优势。目前华为手机、搭载华为鸿蒙座舱的新能源汽车已有很大的出货量，如果能够实现很好的跨端协同，对于华为的用户而言将会非常有吸引力。

( @XR Vision)

3、捏 Ta 完成超千万美金 PreA+ 轮融资，定义 AI 时代世界创作的基础设施

近日，AI 原生社区捏 Ta 宣布完成超千万美金的 Pre A+ 轮融资，由九坤创投领投，BV 百度风投跟投，源码资本、奇绩创坛等老股东超额跟进。 这一轮融资将主要用于三个方向：招募面向全球拓展的顶尖人才，技术研发投入，以及新产品线拓展。

上线于 2024 年 3 月，捏 Ta 最初是一个专注于 AI 角色创作的平台。用户可以用自然语言创建虚拟角色，围绕角色创作图像、漫画、短片和可交互的玩法等。

目前，平台已积累超 1200 万用户，活跃用户日均互动时长超过 110 分钟。在平台上，创作者们构造了 584 万个虚拟角色，上线了 400+ 包括场景、规则的虚拟世界和社团空间。商业化层面，捏 Ta 在国内的收入已覆盖获客与算力成本，实现单位经济模型打正。

随着 AI 技术迭代、用户积累和玩法的深入，主题也逐渐扩充到包括像敦煌、非遗等传统文化，上万人在同一个世界观中统一风格参与创作，捏 Ta 平台正在从「创作角色」升级为「构建世界」。

捏 Ta 正在面向全球推出升级版创作工具，目标人群覆盖 Comic-Con、AO3 等全球泛创作社区。公司目前重点招募具有全球视野的产品设计师和文化策略人才。虚构世界的需求是全球性的，从日本二次元文化到欧美奇幻文化，虚拟世界创作在世界各地有着大量年轻、原生、热情的创作者。

（@极客公园）

03 有态度的观点

1、吴恩达：AGI 仍遥远

近日，人工智能学者吴恩达（Andrew Ng）在「This Is The World」专访中，指出 AGI（通用人工智能）已被过度炒作并沦为营销术语，且断言 2026 年内行业无法实现真正的 AGI。

采访中，吴恩达批评当前部分企业为公关或融资目的频繁篡改并降低 AGI 的标准。

他提出了一项全新的「图灵 AGI 测试」：若 AI 能够像熟练的人类远程工作者一样，在连续多天的体验中独立完成具有经济价值的工作任务，才符合社会公众对 AGI 的合理预期。

吴恩达表示，距离实现该目标仍有数十年距离，且随着公开互联网数据接近枯竭，单纯依赖扩大参数规模来提升智能的路径正面临挑战。

针对后续技术演进方向，吴恩达指出 2026 年及以后的核心商业价值将集中在「智能体工作流」。他认为，相比于盲目追求全知全能的单体大模型，通过赋予现有大型语言模型工具调用能力与护栏，让其分步骤处理法律合规、医疗辅助及客户服务等垂直领域任务，将产生更为确定的经济效益。

（@APPSO)

写在最后：

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

作者提示: 个人观点，仅供参考

微软开源 Phi-4 视觉混合推理小模型；Raycast 发布 Glaze，通过对话生成本地应用丨日报

01 有话题的技术

02 有亮点的产品

03 有态度的观点

添加新评论

最新文章

最近回复

分类

归档

其它