Demo

为什么做这个

去年迷上了 Claude Code ,但每次都要打字描述需求,有点累。市面上的语音输入工具试了一圈:要么贵、要么单语种、要么不支持润色,甚至粘贴到终端还会丢字。

6 个月前干脆自己做了一个,专注 macOS 语音输入。界面不花哨,但够实用,有需要可以试试。

我的场景比较特殊:人在海外开发,中英法混用,一句话里频繁切换语言。这正好是大多数商业方案的痛点。

目前已经完全融入日常工作流,每天触发上百次,用得很顺手。

几个比较用心的点

  • 多引擎可选:Soniox / ElevenLabs / 火山引擎 / Groq Whisper / Apple Speech ,按需切换
  • 实时字幕浮窗:说话时能看到识别中的文字流,不用等结果出来才知道说错了
  • AI 自动润色:去口水词、补标点、修口误,置信度高时自动跳过润色省 200ms 延迟
  • 终端友好:Ghostty / iTerm2 / Kitty 通过 Accessibility API 直接走菜单粘贴,不会被 Cmd+V 事件丢字
  • 自定义词汇表:人名、专业术语强制替换,不会再把 "Soniox" 识别成 "骚扰客死"
  • 隐私:本地优先,云端 STT 直连官方 API ,不经过我自己的服务器

引擎怎么选

如果你跟我一样要写英文代码注释、和海外团队对接、刷英文文档、中英混着说话,首选 Soniox。这五个引擎我都跑了几个月,Soniox 是多语种混合识别最稳的一个:

  • Soniox:中英法日西自动切换,无需指定语种,首字延迟 ~1 秒,海外开发者 / 中英混说场景强推
  • 火山引擎:纯中文最准,但不支持混合识别,碰到英文单词会音译成汉字
  • Groq Whisper:英文最强,但是 HTTP 批量识别不是流式,延迟高
  • ElevenLabs:英文流式好,中文一般
  • Apple Speech:完全本地,隐私最好,但中英混说会跳错语种

试用期 30 天可以把这几个引擎挨个跑一遍,选最顺手的。

仅支持 Apple Silicon ( M1 及以上)+ macOS 14 Sonoma 及以上

PS

  • 不订阅、不联网激活、License 文件离线验证
  • 当然了,还有隐藏授权,比如说你想专门体验的老哥也可以信箱私,主要交个朋友.
  • 20 个免费早鸟授权,先到先得,结账时输入折扣码 VOILAV2EX,价格直接归零
  • 官网: https://voilapro.app

技术栈感兴趣的也欢迎聊:Swift + SwiftUI 、AVAudioEngine 抓音频、WebSocket 流式 STT 、Ed25519 离线 License 验签。

标签: none

添加新评论