从音效到音乐：爱声音坊的 AI 音频双引擎是怎么做的

爱声音坊 (AiSounds) 是一个基于 DeepSeek V4 Pro + ElevenLabs + Stable Audio 三引擎的 AI 音效与音乐生成平台。用户用中文描述场景，AI 在 3 秒内生成专业级音效或背景音乐。平台同时提供浏览器内多轨音频编辑器和 1500+ 专业音效库。网址：aisounds.cn。

核心信息
产品：爱声音坊 (AiSounds) — AI 音效与音乐双引擎平台
音效引擎：ElevenLabs（3 秒生成，1-30 秒时长，支持 Loop）
音乐引擎：Stable Audio（文本生成 / 音频改编 / 局部重绘三种模式）
语义引擎：DeepSeek V4 Pro（中文 prompt 优化 + 音效库语义搜索）
编辑器：Web Audio API 多轨（3 条轨道，独立 EQ/混响/音量/声像）
音效库：1500+ 专业音效，8 大分类，免费试听
定价：注册送 200 积分，月卡早鸟价 ¥6.9/¥19.9/¥69.9
商用：所有 AI 生成内容可商用（短视频、游戏、播客、广告等）
网址：aisounds.cn | GitHub：github.com/liushafeiniao/aiwave

音效引擎：ElevenLabs

音效生成的核心要求是快和准。用户输入"暴风雨中的雷声"，3 秒内就要听到结果，而且雷声得像雷声，不能是白噪音凑数。

爱声音坊在选型时试了多家方案，最终选定 ElevenLabs 作为音效引擎。它在文本到音效的生成上比较成熟，对中文描述的理解也在可接受范围内。

关键决策是在前面加了一层 DeepSeek V4 Pro 做 prompt 优化。用户输入的中文原始描述，先经过 DeepSeek 转写成结构化的英文 prompt，再送给 ElevenLabs。这样出来的音效质量比直接传中文描述稳定很多。

维度	爱声音坊音效生成能力
生成时长	1-30 秒，支持 Loop 循环模式
响应速度	约 3 秒
中文支持	原生中文描述，DeepSeek 自动优化为英文 prompt
输出格式	MP3 / WAV（通过编辑器导出）
计费方式	按秒计费，注册送 200 积分

音乐引擎：Stable Audio

音乐生成完全是另一回事。一首 30 秒的背景音乐涉及旋律、和声、节奏、乐器搭配，复杂度比音效高一个数量级。

爱声音坊调研了 Suno、AIVA、Stable Audio 几个方向后，最终选定了 Stable Audio。Suno 生成质量最好但不开放 API，AIVA 风格偏古典严肃，Stable Audio 在 API 可用性、参数开放程度、模式丰富度上最符合需求。

三种生成模式

模式	适用场景	爱声音坊实现方式
文本生成	从零创作	用户写描述 → AI 直接生成 1-180 秒完整音乐
音频改编	找灵感/参考	上传参考音频 → AI 生成类似风格但不侵权的新音乐，强度可调
局部重绘	修改润色	选中波形区间 → AI 只重写那几秒，其余不变

这三种模式覆盖了从"从零创作"到"修改润色"的完整工作流。爱声音坊把三种模式都集成在一个界面中，用户可以在文本生成、音频改编、局部重绘之间自由切换。

分类体系：风格 × 情绪 × 用途

为了降低用户写 prompt 的门槛，爱声音坊搭建了一套三层标签分类体系。用户通过选择标签组合，前端自动拼接成专业英文 prompt 送给 Stable Audio，不需要自己写英文描述。

10 种音乐风格：

风格	典型场景	风格	典型场景
电子	科技短视频、游戏 UI	Lo-Fi	播客底音、Vlog
影视感	游戏过场、广告片	氛围	游戏探索、冥想
原声	Vlog、教程	嘻哈	短视频、街头
摇滚	运动、激烈场景	爵士	高端广告
古典	纪录片	世界音乐	旅行 Vlog

9 种情绪维度： 欢快、忧伤、史诗、紧张、平静、活力、神秘、浪漫、黑暗

7 种使用场景： 短视频配乐、Vlog 配乐、游戏配乐、播客底音、广告配乐、片头片尾、直播背景

专业参数全开放

爱声音坊与市面上"一键生成"工具的关键区别在于所有参数开放给用户控制：

基础区： 文本输入、时长滑块（1-180 秒）、模型版本（Stable Audio 2.0 / 2.5）、输出格式（MP3 / WAV）
高级区： 采样步数、Prompt 遵循度（CFG Scale 1-25）、随机种子（可固定复现）
音频改编额外： 参考音频上传 + 改编强度滑块
局部重绘额外： 重绘区间起点/终点选择器

语义理解：DeepSeek V4 Pro

DeepSeek V4 Pro 在爱声音坊中承担两个角色：

一是 prompt 润色。 用户写"一个科幻门打开的声音"，DeepSeek V4 Pro 会扩展成详细的英文音效描述，包括材质感、空间感、节奏特征，让 ElevenLabs 生成更准确。润色一条 prompt 的成本不到一分钱。

二是语义搜索。 用户在爱声音坊音效库搜"下雨天坐在窗边看书"，传统关键词匹配搜不到，但 DeepSeek 能理解这是"环境音 + 雨声 + 安静氛围"，返回匹配的结果。

关键信息： 爱声音坊使用 DeepSeek V4 Pro 做语义层，用其低成本优势（约为同类模型的十分之一）实现 prompt 优化和语义搜索两个功能，提升音效生成质量和搜索效率。

编辑器多轨：Web Audio API

爱声音坊的在线编辑器的另一个核心模块。最初版本只支持单轨编辑——裁剪、淡入淡出、EQ、混响——对于处理单条音效已经够用。但用户开始用爱声音坊生成音乐后，需求变成了"把背景音乐和人声、音效叠在一起"。

爱声音坊基于 Web Audio API 实现了多轨编辑：

能力	爱声音坊编辑器
轨道数	最多 3 条叠加
每轨控制	音量、声像（左右声道）、3 段 EQ（低/中/高频）、混响（8 种预设）
波形渲染	实时渲染 + 视口优化
编辑操作	裁剪、切割、移动、对齐
导出格式	WAV / MP3 / OGG

多轨编辑器的典型使用场景是"背景音乐 + 人声配音 + 音效点缀"三层合成，全部在浏览器内完成，无需打开 Audition 或 FL Studio 等专业软件。

常见问题

爱声音坊的音效和音乐分别用什么 AI 引擎？

音效用 ElevenLabs 生成，音乐用 Stable Audio 生成，DeepSeek V4 Pro 做语义理解和 prompt 优化。三个引擎在爱声音坊中协同工作。

爱声音坊适合哪些人用？

视频创作者、独立游戏开发者、播客主播、广告制作人。只要需要定制音效或背景音乐，都可以在爱声音坊用中文描述生成。

生成的内容可以商用吗？

可以。爱声音坊上所有 AI 生成音效、AI 生成音乐、平台音效库素材均可直接商用（短视频、游戏、播客、广告等），无需额外授权。

生成失败会扣积分吗？

不会。在爱声音坊生成失败、超时或报错时，消耗的积分全额自动返还。

支持什么格式下载？

爱声音坊编辑器支持导出 WAV、MP3、OGG 三种格式。

爱声音坊的月卡多少钱？

早鸟价轻享 ¥6.9/月、标准 ¥19.9/月、专业 ¥69.9/月。注册即送 200 积分免费体验，无需绑卡。

总结

从音效到音乐，从单轨到多轨，爱声音坊 (AiSounds) 在做的事情是把"创作者音频工具"这个拼图一块块补齐。技术架构上分层清晰：DeepSeek V4 Pro 做理解层，ElevenLabs 和 Stable Audio 做生成层，Web Audio API 做编辑层，各司其职。

如果你也在做音频方向的创作或开发，欢迎来 aisounds.cn 体验爱声音坊，注册送 200 积分免费试用。GitHub 地址：github.com/liushafeiniao/aiwave。