硬件版 AI 语音输入法:SpeakON 发布 MagSafe 设备,格式化转录文本输出第三方 App
开发者朋友们大家好: 这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。 本期编辑:@koki、@鲍勃 小米昨天正式宣布 Xiaomi MiMo-V2.5 系列大模型开启公测,涵盖 MiMo-V2.5、MiMo-V2.5-Pro、MiMo-V2.5-TTS Series 及 MiMo-V2.5-ASR 四款产品,并宣布两款主力模型即将全球开源。 MiMo-V2.5-Pro(旗舰,长程 AI 智能体): MiMo-V2.5(通用,原生全模态 AI 智能体): (@APPSO) 斯坦福大学李飞飞团队近日发表论文,揭示了当前主流多模态 AI 存在一种系统性缺陷——即便没有收到任何图片,GPT-5、Gemini 3 Pro、Claude Opus 4.5 等前沿模型依然会「自信地」描述图像细节并给出诊断结论。 研究者将这一现象命名为「海市蜃楼式推理」(Mirage Reasoning)。 团队构建了一个名为 Phantom-0 的测试集,将 200 道需要看图才能作答的问题的图片全部拿掉,同时不告知模型。结果显示,所有被测模型在超过 60% 的情况下会「描述」一张根本不存在的图片。 若加入常见的评测提示语,这一比率甚至飙升至 90%-100%。在六大主流多模态基准测试上,模型在「无图模式」下平均仍能保留原始得分的 70%-80%,意味着图片本身对最终得分的真实贡献可能只有 20%-30%。 更具冲击力的是,团队用 Qwen-2.5 训练了一个仅有 30 亿参数、从未看过任何图片的纯文本小模型,在胸部 X 光问答基准上不仅击败了所有多模态大模型,还将人类放射科医生的平均水平甩开了 10 个百分点以上。 这一缺陷在医疗场景中尤为危险:图片上传失败时,模型不会报错,而是直接输出措辞专业的诊断报告,且内容系统性地偏向心肌梗死、黑色素瘤等需要紧急处置的重症。 针对这一漏洞,团队提出了 B-Clean 清洗框架,将三份权威基准中 74%~77% 的题目判定为「不看图也能答对」并予以剔除,清洗后各模型得分大幅下滑,三分之二的基准出现排名逆转。 论文全文:arxiv.org/abs/2603.21687 (@APPSO) 视觉安防厂商萤石(EZVIZ)推出首款儿童 AI 相机 EZVIZ Pika。该设备采用自研蓝海大模型并接入豆包、DeepSeek API,将安防级视觉识别技术转化为移动端实时科普工具,实现了从被动监控到主动交互的场景迁移。 放眼整个赛道,伴随着玩家逐渐涌入,拍学机市场正处于大爆发前夜。过去,这个领域缺乏具备硬核底层技术的大厂坐镇;如今,萤石的入局,不仅提升了整个品类的供应链与算法水位,更释放出一个其实已经被反复证明的确切信号: AI 硬件的下一波红利,将产生在那些能够把大模型能力与特定生活方式进行深度缝合的垂直工具上。 (@深圳湾) Gyges Labs 推出 Vocci 智能戒指。该产品取消了健康监测功能,定位为 AI Agent 的物理入口,通过指尖按键实现一键录音、实时「干货」标记及跨平台任务执行(如将语音指令转化为 PPT 并发送邮件),旨在消除手机端 AI 交互的摩擦力。 (@深圳湾) 新加坡初创公司 SpeakON 推出一款 MagSafe 物理 AI 按钮及配套 iOS 应用 该产品通过 硬件端一键唤起语音采集,利用 AI 实时滤除杂音与口语冗余,并将 优化后的结构化文本直接注入当前活动的第三方应用文本框,旨在消除移动端 AI 交互的跨应用摩擦。 (@prnewswire,@producthunt) 4、Prego 推出 Connection Keeper:无屏幕 IoT 录音设备,支持云同步与美国国会图书馆存档 意面酱品牌 Prego 联合非营利组织 StoryCorps 推出「Connection Keeper」限量版音频采集硬件。该设备旨在通过低摩擦的交互方式捕捉家庭用餐对话,并实现云端备份与国家级数字档案馆的长效保存。 这款限量版「Connection Keeper」是一款简单、无屏幕的对话录音设备,它是圆盘状的,类似于 Prego 意面酱的盖子。把它放置在餐桌中央,用于录制家庭的对话。 它可以录下用餐时自然流露的笑声、故事和珍贵时刻,并将这些录音保存下来,供未来多年重温。全程无需手机、屏幕或其他干扰。 用餐开始时,只需轻敲小盒子,使用可选的对话提示卡,设备便会开始工作。 原始录音会自动保存到内存中,然后同步到 StoryCorps 门户网站的云端,家庭成员可以在那里保存、整理、重新分享和稍后回顾他们的晚餐记录。 它使用 16GB 的 microSD 卡进行录制,最多可存储 8 小时的对话。 StoryCorps 声称,其门户网站(以及所有上传的家庭录音)都受到全面加密和用户隐私控制(尽管具体细节尚未公布)。该门户网站将于 5 月 4 日上线。据该公司称,文件默认设置为私密,但用户可以选择将任何文件上传到 StoryCorps 公共档案馆。更令人兴奋的是,这些录音将被保存在美国国会图书馆,供后代查阅。 (@多知) 昨天,爱奇艺 CEO 龚宇在微博连发三条帖文,就旗下 AI 艺人库引发的争议公开澄清: 艺人入库仅代表接洽意愿,具体项目与角色仍需单独授权,「跟现在的商业模式没有任何变化」;此前「非遗」一说也并非定论,而是对未来影视形态的开放性探讨。 他同时强调:「科技以人为本,科技永远是为人服务的,科技永远不是为了取代人。」 此前,爱奇艺宣布旗下 AI 创作平台「纳逗 Pro」正式上线 AI 艺人库,已有超过 100 位演艺人士入驻。 随后,张若昀、于和伟等多位艺人相继发文辟谣,否认已签署 AI 相关授权,张若昀工作室更表示「法务正在紧急处理」,引起广泛争议。 爱奇艺 CEO 龚宇还在发布会现场提出,未来完全由人类创作的真人实拍影视作品,可能会被命名为「非物质文化遗产」;并表示,演员授权 AI 后可将年接项目数从 2 部提升至 4 部,同时降低工作强度。 这一表述被广泛解读为平台有意以 AI 取代真人演员,引发从业人员和观众集体反弹。 ( @APPSO) 招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」) 你的方言,AI 听得懂吗?那些只有业内人才懂的黑话和专业术语,语音识别能扛住吗?Fun-ASR1.5 模型开放全民挑战!无需部署,扫码打开小程序,点击即测。找到的错误越多,离千元大奖越近。来试试看,你能难倒 AI 几次? 阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么 写在最后: 我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。 对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。 作者提示: 个人观点,仅供参考01 有话题的技术
1、小米 MiMo-V2.5 系列开启公测:旗舰版对标 Claude Opus 4.6

2、李飞飞团队最新研究揭示多模态 AI 致命缺陷:没给图片,它照样「看」得头头是道

02 有亮点的产品
1、安防巨头下场做拍学机,萤石 Pika 要做儿童的外挂大脑
2、Gyges Labs 发布 Vocci 智能戒指:3g 钛合金机身集成多智能体架构,主点位 AI 记忆增强


3、SpeakON 发布 MagSafe AI 实体按钮:集成独立麦克风,支持格式化文本直接注入活跃 App

03 有态度的观点
1、爱奇艺推 AI 艺人库遭演员集体辟谣,CEO 连发三文:科技永远不是为了取代人

04 社区黑板报
1、Fun-ASR1.5 全民公测,重金悬赏「各种不服」



