在 v2 上一个帖子看到了一个远程招聘的帖子,邮件后和老板聊了几个小时感觉还不错,然后的话,给我出了个笔试题目(如下):

请在 3- 5 个工作日(最长不可超过 7 个工作日的时间内),设计并实现一个可以在 Mac 和 Windows 两
个系统上都能运行的,能够完成实时对话翻译应用的 Demo ,用于解决需要大量文本录入和文本翻译的
需求。
目标用户为重度写作用户,使用场景为在桌面端每天需要写作 3000 字以上,可通过语音录入文字,并
可以将文字翻译为指定的语言
具体需求:
应用启动后自动进入文字/语音输入界面
可通过键盘和语音两种方式输入文字
可自动识别输入的文字和语音为何种语音,无需用户自己设置和切换
支持按钮启动语音识别,也可支持 Ctrl/Cmd + Tab 快捷键启动语音识别
默认不启动翻译,需用户手动启动,将输入的文字自动翻译为指定的语言文字
可切换多种翻译的目标语言,需支持中文、英文、日文、韩文、法文、德文、俄
文、西班牙文,意大利文等 9 种语言
对话界面交互友好,信息清晰直观
能显著区分原文和译文,译文应方便识别、阅读和复制
输入文字的界面可借鉴对话聊天界面,即非只能查看当前输入信息,应能够查看
历史内容
点击某个历史内容,可以重新翻译为另外的一种语言,并不新增记录,只对历史
内容的翻译做更新即可
语音识别模型和翻译模型都需要使用本地模型,即能够无网络使用,以确保信息
安全
语音识别模型和翻译模型可以通过下载的方式按需加载(比如通过 HuggingFace ,
需要法文翻译,才需要下载法文模型),而非打包在安装包中
能够在 Mac 和 Windows 两个系统上运行,可完成至少三次以上的内容输入和自动
翻译
可使用 AI 辅助完成此项任务,包括但不限于界面设计、技术选型、架构设计、代
码实现、以及测试
交付:
提交 Github 仓库链接( Clone 后可以编译运行)
技术选型说明:为使该 Demo 达到最佳体验的技术选型,均可阐述。包括但不限
于所选语音识别模型和翻译模型的原因,所选跨平台开发框架的原因等
架构设计说明:
AI 使用方法与总结:
介绍完成此任务的过程中,在哪些环节使用了 AI ,分别使用了哪些 AI 工具
和 Agent
回顾此工作,哪些环节还可以改进使用 AI 的效率和质量
加分项
流式语音输入和流式翻译。 即给用户营造实时输入和实时翻译的体验,无需等待
数秒之后才出现内容
性能分析:对 Demo 的内存、CPU 、GPU 等性能进行分析,给出以后需要优化之

阐述个人的软件设计哲学

标签: none

添加新评论