微软开源 Phi-4 视觉混合推理小模型;Raycast 发布 Glaze,通过对话生成本地应用丨日报
开发者朋友们大家好: 这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。 本期编辑:@koki、@瓒an、@鲍勃 1、Raycast 发布 AI 对话构建桌面产品工具 Glaze Raycast 团队近日发布新产品 Glaze,旨在通过自然语言交互实现桌面级应用的零代码开发。该工具核心解决了传统软件「通用化」导致的效率低下问题,允许用户通过对话式界面快速生成、定制并运行本地应用。 其核心技术特性有: Glaze 是 Raycast 插件生态的深度进阶版。其逻辑从「在单一容器内运行插件」转向「生成独立、全功能的桌面软件」,利用过去六年在 Raycast 开发中积累的 UI 框架和交互规范,确保生成的应用在无人工编码的情况下保持高性能与高审美一致性。 目前 Raycast 内部团队已利用 Glaze 构建了连接 GitHub 的扩展程序审核流工具,以及多种辅助内部协作的微型工具。 ( @Raycast) 2、微软发布 Phi-4-Reasoning-Vision-15B 开源模型,能自主决定何时思考的小型多模态 AI 微软发布了一款 Phi-4-Reasoning-Vision-15B 模型,这是一款视觉推理模型。 它结合了高分辨率视觉感知与选择性、任务感知的推理,使其成为 Phi-4 系列中首个同时实现「看得清楚」和「想得深入」的小语言模型。 传统的视觉模型仅执行被动的感知 —— 识别图像中「有什么」。Phi-4-Reasoning-Vision-15B 更进一步,执行结构化、多步骤的推理:理解图像中的视觉结构,将其与文本上下文连接,并得出可操作的结论。这使开发者能够构建从图表分析到 GUI 自动化的智能应用。 该模型最关键的设计特征是其混合推理行为。它可以根据提示在「推理模式」和「非推理模式」之间切换: 该模型最重要的应用领域之一,就是搭配计算机智能体使用。模型接收一个屏幕截图和自然语言指令后,可输出目标 UI 元素的标准化边界框坐标,其他智能体模型可以执行点击、滚动和其他交互。 以下是 Phi-4-Reasoning-Vision-15B 与其他模型在关键任务上的性能对比: 推理模式 非推理模式 (@极客公园) 1、AI 初创 Flowith 完成千万美元融资 AI 初创 Flowith 近期宣布,完成千万美元种子轮和种子+轮融资。据悉,种子轮为祥峰投资(Vertex Ventures)等机构,种子+轮为红杉中国种子基金、江远投资(LongRiver)等多家顶尖机构联合领投,融资资金将主要用于研发以及全球化市场拓展。 在生成式 AI 从语言范式走向行动范式的浪潮中,行业正经历从被动响应的 LLM 进化为具备自我规划、主动执行能力的系统(Agentic AI)。Flowith 认为,传统的对话框形态已无法承载复杂的逻辑闭环,未来的核心竞争力在于如何让模型真正在端侧具备「学习」、「执行」与「进化」的能力。 作为 AI 交互领域和 Agent 的领先探索者,Flowith 一经推出就以创新性的交互方式获取了大量关注,并领先推出了首个通用型创作智能体框架 Oracle、AI Context 知识花园、无限步骤智能体 Agent Neo、首个 OS Agent - FlowithOS等业界前沿创新产品与功能、在海内外获得了数百万深度用户。 在 2026,Openclaw 已经证明系统 Agent 的潜力,作为 OS Agent 的领先探路者,Flowith 致力于打造一个以「行动」为内核、具备更强能力和更全面工具调用性的 Agent 系统。它让 Agent 可以更进一步地融入用户的工作和生活,在用户熟悉的环境中快速接手那些繁杂的任务,彻底打破 AI 与真实物理世界/数字世界之间的执行壁垒。 祥峰投资相关投资负责人表示: 「我们正处于从感知智能向行动智能跨越的拐点。Flowith 团队在 Agentic OS 方向的深刻洞察和极强的工程执行力,使其成为了赛道中极具潜力的基础设施提供商。我们期待 Flowith 能为 AI 生态提供更稳健的进化引擎。」 ( @Z Potentials) 2、华为拍摄款 AI 眼镜或 4 月份发布,搭载海思芯片 华为新款 AI 眼镜预计将于今年 4 月正式发布。 届时,该产品有望与备受期待的华为 Pura90 系列手机及第二代阔折叠屏手机、及诸多新品同台亮相。 该款 AI 眼镜支持拍照功能,搭载鸿蒙系统,支持跨端协同,同传翻译,有流光银、钛银灰、摩登黑三个颜色。今年春节期间,华为终端 BG 董事长余承东曾佩戴该尚未发布的新品,便引发了人们对于该产品即将发布的猜想。 据悉,该款华为 AI 眼镜目前已经在公司内部进行内测。由于华为不能采用高通 AR1 的芯片,大概率采用的是华为自研的海思麒麟芯片,搭载的是鸿蒙 OS,可以实现和华为手机、华为车机的跨端联动,更好地发挥其独特的生态优势。目前华为手机、搭载华为鸿蒙座舱的新能源汽车已有很大的出货量,如果能够实现很好的跨端协同,对于华为的用户而言将会非常有吸引力。 ( @XR Vision) 3、捏 Ta 完成超千万美金 PreA+ 轮融资,定义 AI 时代世界创作的基础设施 近日,AI 原生社区捏 Ta 宣布完成超千万美金的 Pre A+ 轮融资,由九坤创投领投,BV 百度风投跟投,源码资本、奇绩创坛等老股东超额跟进。 这一轮融资将主要用于三个方向:招募面向全球拓展的顶尖人才,技术研发投入,以及新产品线拓展。 上线于 2024 年 3 月,捏 Ta 最初是一个专注于 AI 角色创作的平台。用户可以用自然语言创建虚拟角色,围绕角色创作图像、漫画、短片和可交互的玩法等。 目前,平台已积累超 1200 万用户,活跃用户日均互动时长超过 110 分钟。在平台上,创作者们构造了 584 万个虚拟角色,上线了 400+ 包括场景、规则的虚拟世界和社团空间。商业化层面,捏 Ta 在国内的收入已覆盖获客与算力成本,实现单位经济模型打正。 随着 AI 技术迭代、用户积累和玩法的深入,主题也逐渐扩充到包括像敦煌、非遗等传统文化,上万人在同一个世界观中统一风格参与创作,捏 Ta 平台正在从「创作角色」升级为「构建世界」。 捏 Ta 正在面向全球推出升级版创作工具,目标人群覆盖 Comic-Con、AO3 等全球泛创作社区。公司目前重点招募具有全球视野的产品设计师和文化策略人才。 虚构世界的需求是全球性的,从日本二次元文化到欧美奇幻文化,虚拟世界创作在世界各地有着大量年轻、原生、热情的创作者。 (@极客公园) 1、吴恩达:AGI 仍遥远 近日,人工智能学者吴恩达(Andrew Ng)在「This Is The World」专访中,指出 AGI(通用人工智能)已被过度炒作并沦为营销术语,且断言 2026 年内行业无法实现真正的 AGI。 采访中,吴恩达批评当前部分企业为公关或融资目的频繁篡改并降低 AGI 的标准。 他提出了一项全新的「图灵 AGI 测试」:若 AI 能够像熟练的人类远程工作者一样,在连续多天的体验中独立完成具有经济价值的工作任务,才符合社会公众对 AGI 的合理预期。 吴恩达表示,距离实现该目标仍有数十年距离,且随着公开互联网数据接近枯竭,单纯依赖扩大参数规模来提升智能的路径正面临挑战。 针对后续技术演进方向,吴恩达指出 2026 年及以后的核心商业价值将集中在「智能体工作流」。他认为,相比于盲目追求全知全能的单体大模型,通过赋予现有大型语言模型工具调用能力与护栏,让其分步骤处理法律合规、医疗辅助及客户服务等垂直领域任务,将产生更为确定的经济效益。 (@APPSO) 阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么 写在最后: 我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。 对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。 作者提示: 个人观点,仅供参考 
01 有话题的技术



02 有亮点的产品



03 有态度的观点



