标签 语音输入 下的文章

先说结论:大概 1~2 年之后,语音输入在移动设备上将会成为主流的输入方式。文字输入基本被淘汰,就跟现在基本没有人会用手写输入一样。

为什么?因为效率。

一个操作熟练的一般人大概每分钟能打 80~100 个汉字,人的说话速度大概是每分钟 160~240 个汉字。

现在 AI 语音输入法可以识别得非常快,非常准确,基本上可以跟上说话的速度。比如说我写的这一段,用的是豆包的语音输入(利益不相关,纯佩服),一个错别字都没有改过(最多是修改一下标点符号。)甚至一些很生僻的词也能识别出来。

当然,随着这个预测的出现,另外一个是谁能把握到这个语音输入的机会(包括软件和硬件),谁可能就会成为未来输入的统领者。这个预测的一个很大的变数是 AI 时代语音输入法门槛会比较低,做一个九十分的语音输入应该都不是一个很复杂且很费劲的事情。比的是谁能做到 99 分。

你觉得呢?

背景介绍

随着HarmonyOS 的发展,很多开发者将鸿蒙作为重要开发平台,尤其是在华为激励计划的加持下,涌入大量开发者贡献了大量应用,将大量创意带个了鸿蒙生态。

但随着时间推移,许多开发者发现,鸿蒙的应用审核似乎异常“严格”,很多开发者上架提审时被卡在了《审核指南》3.5和3.7项:

  • 3.5项的规则是:应用需具备实用价值,能为用户提供实质功能/服务,且需具备创意,不得为纯信息展示,包括但不限于单一图片、单一页面、单一影视剧集类、单一图书单行本类、单一非官方游戏攻略类等。应用不得是简单打包的网站页面或套用模板、内容聚合、罗列链接、广告推广等,或为手机系统自带的简易功能。
  • 3.7项的规则是:请避免继续在已有较多类似应用的类别下进行开发,如敲木鱼、随机选择、计算器、手电筒、记事本、记账、天气、数字大小写转换、日历、指南针、智能遥控、镜子、助眠睡眠、证件照、色彩助手、手持弹幕、播放器、万能遥控器、外卖跑腿聚合平台、生鲜买菜服务聚合平台、计时类、Wi-Fi管理类、Wi-Fi搜索连接类、Wi-Fi检测提速类等类别的应用,除非您的应用能够提供独特、高质量的体验,为用户提供多样、优质的功能和服务,否则您的应用可能会被拒绝或移除。
    还有不少开发者反馈,被3.5或3.7规则拒审后,又增加了不少页面和功能还是被以同样的原因拒审,甚至有人再传只要被3.5或3.7基本死刑了,需要重新想创意开发了。小编正好之前被3.5拒审后面通过迭代成功上架打破传言,本文就通过复盘3.5后迭代的经历分享打破3.5魔咒的经验。
    image.png

应用功能介绍

小编开发的应用叫”智能带办“,踩中了个人开发者最常开发的应用清单,是个清单类应用。创意来源于日常生活中自己的痛点,每次出差出远门或者从帝都回老家,都要拉一个单子把所有要带的东西都列出来,大部分情况带的东西都差不多,一般都记录在备忘录中,列清单的时候很耗费精力,想到AI能力越来越强大,可不可以让AI给生成?在AI工具中虽然可以生成清单,但是又没法做勾选等操作,融合操作和AI能力就想到做一个智能生成带办的应用,应用的亮点就是专注解决出行携带难题,通过AI智能生成场景清单,让你告别遗忘,轻松应对每一次出差、旅行、露营与日常外出。

智能带办,让你每一次出发,都底气十足。
告别“忘带焦虑”,从容开始每一段行程。
image.png

3.5拒审版本功能盘点

提审被拒绝的版本主要包含四个页面:Chat、历史、我的、详情。在Chat页面输入要办的事情自动生成要带物品清单,勾选物品确认后生成带办清单并自动跳转到详情页,页面效果如下:
Chat页面:
image.png
清单页面:
image.png

清单展开详情页:
image.png

详情页:
image.png

新迭代功能

在重新提审的版本对整个代码工程做了重构,UI也进行了优化,包含功能:
推荐:
image.png

清单页:
image.png

Chat页:
image.png
详情页:
image.png

碰一碰页:
image.png

语音输入:
image.png

对比拒审前和拒审后版本功能区别如下:
1、UI美化
2、增加了推荐功能
3、增加了HarmonyOS 系统碰一碰分享能力
4、增加了语音输入功能
5、Chat页输入框上方增加了推荐问题

复盘总结

通过对比被拒版本与最终上架版本,我们可以清晰地看到一个核心转变:从“一个不错的功能点子”进化为“一个完整、独特且有深度的产品”。这不仅是一次功能的叠加,更是对审核规则内涵的深刻理解与主动契合。下面,我将逐点拆解迭代背后的逻辑,还原打破“3.5魔咒”的真实路径。

  1. 从“单薄的功能演示”到“完整的用户体验闭环”

    • 原版本痛点:应用流程始于Chat输入,终于清单生成与勾选。这更像是一个AI工具的“功能演示”,用户使用路径短,用完即走,缺乏留存价值和持续使用场景,恰好落入规则3.5所述“功能单薄”的范畴。
    • 迭代策略与效果:

      • 增加“推荐”页:这是本次迭代的“棋眼”。它不再是空白的起点,而是提供了“出差”、“露营”、“健身”等丰富的预设场景。这带来了三大好处:其一,直观证明了应用的“实用价值”和解决多种场景问题的能力,直接回应了审核对“实质功能”的要求;其二,降低了用户冷启动门槛,提升了易用性;其三,构建了内容厚度,让应用看起来像一个精心策划的工具集,而非一个简单的输入框。
      • 结果:应用从一个“AI清单生成器”变成了一个“出行准备助手”,用户体验形成了“浏览场景-选择/自定义-生成-管理”的完整闭环。
  2. 从“通用AI套壳”到“彰显HarmonyOS独特性”

    • 原版本痛点:功能完全依赖AI接口,在任何平台均可实现,未能体现鸿蒙生态的独特优势。这容易让审核认为应用是“简单打包”或“套用模板”,缺乏不可替代性。
    • 迭代策略与效果:

      • 深度集成“碰一碰”能力:此功能是彰显“鸿蒙基因”的关键。它不再是简单的文本分享,而是通过系统能力实现了跨设备的无缝清单流转。这充分展示了开发者对HarmonyOS系统级能力的钻研与应用,证明了应用是为鸿蒙原生体验而设计,提供了其他平台难以复制的“独特、高质量的体验”(这也恰好回应了规则3.7的精神)。
      • 结果:应用的核心竞争力从“能生成清单”升级为“能在鸿蒙生态中优雅、便捷地生成和协同处理清单”,差异性豁然开朗。
  3. 从“基础交互”到“丰富且人性化的交互维度”

    • 原版本痛点:交互方式仅有文字输入和点击勾选,较为单一。
    • 迭代策略与效果:

      • 增加“语音输入”:这不仅仅是增加一个功能,更是提升了应用的易用性、包容性和现代化程度。在出行准备等双手可能不便的场景下,语音输入尤为实用。它展现了开发者在打磨用户体验上的深度思考。
      • 增加“推荐问题”:在Chat页输入框上方添加推荐问题(如“周末露营带什么?”),极大地引导了用户,丰富了交互的启发性和探索性,让AI工具变得更“聪明”和友好。
      • 结果:应用提供了文字、语音、预设场景选择、碰一碰分享等多种交互路径,功能层次变得更加立体和丰满,彻底摆脱了“单一页面”、“简单操作”的观感。
  4. UI美化:不仅是“面子”,更是“里子”的体现

    • UI重构与美化:这常常被开发者视为“表面功夫”,但在审核视角中,精致的UI是应用“高质量”和“完成度”最直观的外在表现。一个粗糙的界面会强化“敷衍”、“模板化”的印象;而一个设计精良、符合鸿蒙设计规范的界面,则传递出开发者认真打磨产品、尊重用户的积极信号。本次的UI优化,与功能深化同步,共同塑造了一款成熟应用的质感。

核心经验提炼:给开发者的避坑指南

  1. 超越功能点,思考用户旅程:不要只满足于实现核心功能。问自己:用户从哪里来(入口引导)?核心功能之后还能做什么(场景延伸/分享/管理)?如何让他下次还想用(留存价值)?构建闭环。
  2. 拥抱系统能力,打造生态差异化:在鸿蒙上开发,务必主动探索并集成Kit能力(如碰一碰、原子化服务、卡片等)。这是证明你为鸿蒙而来、并能为鸿蒙生态增色的最强证据。
  3. 叠加交互维度,展现思考深度:在主流程上,思考是否能提供更便捷(如语音)、更引导(如推荐)、更趣味(如动效)的交互方式。丰富的交互是“功能深度”的体现。
  4. 用视觉品质为产品背书:将UI/UX视为产品不可或缺的一部分。高质量的设计能无形中提升审核对应用整体质量的评价。

结论

“智能带办”通过审核的经历证明,规则3.5并非“死刑判决”,而是一道清晰的“产品成熟度”分水岭。被拒不是创意的终结,而是产品打磨的开始。关键在于,开发者必须跳出“我明明有这个功能”的委屈心态,转而以审核规则为镜,以更高标准审视自己的应用:它是否构成了完整服务?是否具备生态特色?交互是否丰满精致?当你的应用能从这些维度展现出独特价值和用心之处时,“3.5魔咒”自然不攻自破。

主要更新

设置页面增加了中文支持

去除了 scipy 依赖,应用瘦身 40%

我自己也是用了蛮长时间了:

ASR 提供者
groq、qwen ASR、paraformer (本地)、zipformer-small (本地)、siliconflow

LLM 提供者
groq、openai-compatible、nvdia、OpenRouter

项目地址 进入 release 下载即可

有帮助的话希望佬友们点点 star、提点建议,不胜感激~

已知问题
不使用管理员模式打开的话可能会有些热键注册不上,如 f12(这似乎是 win32api 的特性),可以考虑更换到其他自己喜欢的热键。

这些中文字体看着有点丑啊,有没有懂的佬友分析一下 qt 里面这个中文字体怎么优化一下?


📌 转载信息
转载时间:
2026/1/12 10:14:57

有这个想法原因是在 vibe coding 时,总感觉打字没有口说的快,最近手机上豆包输入法语音输入效果不错,想着电脑上也搞个语音输入法,边上又没有麦克风,不如直接用手机输入,通过 websockt 直接传给电脑,说干就干,启动 vscode,让 codex 自己用 python 做一个,1 分钟就不到就出来了,感觉效果还行,不得不感叹,AI 真的发展太快了,程序员的也得转型了。。。

附上地址:手机语音输入同步到电脑


📌 转载信息
转载时间:
2026/1/10 19:11:59