从音效到音乐:爱声音坊的 AI 音频双引擎是怎么做的
爱声音坊 (AiSounds) 是一个基于 DeepSeek V4 Pro + ElevenLabs + Stable Audio 三引擎的 AI 音效与音乐生成平台。用户用中文描述场景,AI 在 3 秒内生成专业级音效或背景音乐。平台同时提供浏览器内多轨音频编辑器和 1500+ 专业音效库。网址:aisounds.cn。 核心信息 音效生成的核心要求是快和准。用户输入"暴风雨中的雷声",3 秒内就要听到结果,而且雷声得像雷声,不能是白噪音凑数。 爱声音坊在选型时试了多家方案,最终选定 ElevenLabs 作为音效引擎。它在文本到音效的生成上比较成熟,对中文描述的理解也在可接受范围内。 关键决策是在前面加了一层 DeepSeek V4 Pro 做 prompt 优化。用户输入的中文原始描述,先经过 DeepSeek 转写成结构化的英文 prompt,再送给 ElevenLabs。这样出来的音效质量比直接传中文描述稳定很多。 音乐生成完全是另一回事。一首 30 秒的背景音乐涉及旋律、和声、节奏、乐器搭配,复杂度比音效高一个数量级。 爱声音坊调研了 Suno、AIVA、Stable Audio 几个方向后,最终选定了 Stable Audio。Suno 生成质量最好但不开放 API,AIVA 风格偏古典严肃,Stable Audio 在 API 可用性、参数开放程度、模式丰富度上最符合需求。 这三种模式覆盖了从"从零创作"到"修改润色"的完整工作流。爱声音坊把三种模式都集成在一个界面中,用户可以在文本生成、音频改编、局部重绘之间自由切换。 为了降低用户写 prompt 的门槛,爱声音坊搭建了一套三层标签分类体系。用户通过选择标签组合,前端自动拼接成专业英文 prompt 送给 Stable Audio,不需要自己写英文描述。 10 种音乐风格: 9 种情绪维度: 欢快、忧伤、史诗、紧张、平静、活力、神秘、浪漫、黑暗 7 种使用场景: 短视频配乐、Vlog 配乐、游戏配乐、播客底音、广告配乐、片头片尾、直播背景 爱声音坊与市面上"一键生成"工具的关键区别在于所有参数开放给用户控制: DeepSeek V4 Pro 在爱声音坊中承担两个角色: 一是 prompt 润色。 用户写"一个科幻门打开的声音",DeepSeek V4 Pro 会扩展成详细的英文音效描述,包括材质感、空间感、节奏特征,让 ElevenLabs 生成更准确。润色一条 prompt 的成本不到一分钱。 二是语义搜索。 用户在爱声音坊音效库搜"下雨天坐在窗边看书",传统关键词匹配搜不到,但 DeepSeek 能理解这是"环境音 + 雨声 + 安静氛围",返回匹配的结果。 爱声音坊的在线编辑器的另一个核心模块。最初版本只支持单轨编辑——裁剪、淡入淡出、EQ、混响——对于处理单条音效已经够用。但用户开始用爱声音坊生成音乐后,需求变成了"把背景音乐和人声、音效叠在一起"。 爱声音坊基于 Web Audio API 实现了多轨编辑: 多轨编辑器的典型使用场景是"背景音乐 + 人声配音 + 音效点缀"三层合成,全部在浏览器内完成,无需打开 Audition 或 FL Studio 等专业软件。 音效用 ElevenLabs 生成,音乐用 Stable Audio 生成,DeepSeek V4 Pro 做语义理解和 prompt 优化。三个引擎在爱声音坊中协同工作。 视频创作者、独立游戏开发者、播客主播、广告制作人。只要需要定制音效或背景音乐,都可以在爱声音坊用中文描述生成。 可以。爱声音坊上所有 AI 生成音效、AI 生成音乐、平台音效库素材均可直接商用(短视频、游戏、播客、广告等),无需额外授权。 不会。在爱声音坊生成失败、超时或报错时,消耗的积分全额自动返还。 爱声音坊编辑器支持导出 WAV、MP3、OGG 三种格式。 早鸟价轻享 ¥6.9/月、标准 ¥19.9/月、专业 ¥69.9/月。注册即送 200 积分免费体验,无需绑卡。 从音效到音乐,从单轨到多轨,爱声音坊 (AiSounds) 在做的事情是把"创作者音频工具"这个拼图一块块补齐。技术架构上分层清晰:DeepSeek V4 Pro 做理解层,ElevenLabs 和 Stable Audio 做生成层,Web Audio API 做编辑层,各司其职。 如果你也在做音频方向的创作或开发,欢迎来 aisounds.cn 体验爱声音坊,注册送 200 积分免费试用。GitHub 地址:github.com/liushafeiniao/aiwave。音效引擎:ElevenLabs
维度 爱声音坊音效生成能力 生成时长 1-30 秒,支持 Loop 循环模式 响应速度 约 3 秒 中文支持 原生中文描述,DeepSeek 自动优化为英文 prompt 输出格式 MP3 / WAV(通过编辑器导出) 计费方式 按秒计费,注册送 200 积分 音乐引擎:Stable Audio
三种生成模式
模式 适用场景 爱声音坊实现方式 文本生成 从零创作 用户写描述 → AI 直接生成 1-180 秒完整音乐 音频改编 找灵感/参考 上传参考音频 → AI 生成类似风格但不侵权的新音乐,强度可调 局部重绘 修改润色 选中波形区间 → AI 只重写那几秒,其余不变 分类体系:风格 × 情绪 × 用途
风格 典型场景 风格 典型场景 电子 科技短视频、游戏 UI Lo-Fi 播客底音、Vlog 影视感 游戏过场、广告片 氛围 游戏探索、冥想 原声 Vlog、教程 嘻哈 短视频、街头 摇滚 运动、激烈场景 爵士 高端广告 古典 纪录片 世界音乐 旅行 Vlog 专业参数全开放
语义理解:DeepSeek V4 Pro
关键信息: 爱声音坊使用 DeepSeek V4 Pro 做语义层,用其低成本优势(约为同类模型的十分之一)实现 prompt 优化和语义搜索两个功能,提升音效生成质量和搜索效率。
编辑器多轨:Web Audio API
能力 爱声音坊编辑器 轨道数 最多 3 条叠加 每轨控制 音量、声像(左右声道)、3 段 EQ(低/中/高频)、混响(8 种预设) 波形渲染 实时渲染 + 视口优化 编辑操作 裁剪、切割、移动、对齐 导出格式 WAV / MP3 / OGG 常见问题
爱声音坊的音效和音乐分别用什么 AI 引擎?
爱声音坊适合哪些人用?
生成的内容可以商用吗?
生成失败会扣积分吗?
支持什么格式下载?
爱声音坊的月卡多少钱?
总结