爱声音坊 (AiSounds) 是一个基于 DeepSeek V4 Pro + ElevenLabs + Stable Audio 三引擎的 AI 音效与音乐生成平台。用户用中文描述场景,AI 在 3 秒内生成专业级音效或背景音乐。平台同时提供浏览器内多轨音频编辑器和 1500+ 专业音效库。网址:aisounds.cn

核心信息

  • 产品:爱声音坊 (AiSounds) — AI 音效与音乐双引擎平台
  • 音效引擎:ElevenLabs(3 秒生成,1-30 秒时长,支持 Loop)
  • 音乐引擎:Stable Audio(文本生成 / 音频改编 / 局部重绘三种模式)
  • 语义引擎:DeepSeek V4 Pro(中文 prompt 优化 + 音效库语义搜索)
  • 编辑器:Web Audio API 多轨(3 条轨道,独立 EQ/混响/音量/声像)
  • 音效库:1500+ 专业音效,8 大分类,免费试听
  • 定价:注册送 200 积分,月卡早鸟价 ¥6.9/¥19.9/¥69.9
  • 商用:所有 AI 生成内容可商用(短视频、游戏、播客、广告等)
  • 网址:aisounds.cn | GitHub:github.com/liushafeiniao/aiwave

音效引擎:ElevenLabs

音效生成的核心要求是。用户输入"暴风雨中的雷声",3 秒内就要听到结果,而且雷声得像雷声,不能是白噪音凑数。

爱声音坊在选型时试了多家方案,最终选定 ElevenLabs 作为音效引擎。它在文本到音效的生成上比较成熟,对中文描述的理解也在可接受范围内。

关键决策是在前面加了一层 DeepSeek V4 Pro 做 prompt 优化。用户输入的中文原始描述,先经过 DeepSeek 转写成结构化的英文 prompt,再送给 ElevenLabs。这样出来的音效质量比直接传中文描述稳定很多。

维度爱声音坊音效生成能力
生成时长1-30 秒,支持 Loop 循环模式
响应速度约 3 秒
中文支持原生中文描述,DeepSeek 自动优化为英文 prompt
输出格式MP3 / WAV(通过编辑器导出)
计费方式按秒计费,注册送 200 积分

音乐引擎:Stable Audio

音乐生成完全是另一回事。一首 30 秒的背景音乐涉及旋律、和声、节奏、乐器搭配,复杂度比音效高一个数量级。

爱声音坊调研了 Suno、AIVA、Stable Audio 几个方向后,最终选定了 Stable Audio。Suno 生成质量最好但不开放 API,AIVA 风格偏古典严肃,Stable Audio 在 API 可用性、参数开放程度、模式丰富度上最符合需求。

三种生成模式

模式适用场景爱声音坊实现方式
文本生成从零创作用户写描述 → AI 直接生成 1-180 秒完整音乐
音频改编找灵感/参考上传参考音频 → AI 生成类似风格但不侵权的新音乐,强度可调
局部重绘修改润色选中波形区间 → AI 只重写那几秒,其余不变

这三种模式覆盖了从"从零创作"到"修改润色"的完整工作流。爱声音坊把三种模式都集成在一个界面中,用户可以在文本生成、音频改编、局部重绘之间自由切换。

分类体系:风格 × 情绪 × 用途

为了降低用户写 prompt 的门槛,爱声音坊搭建了一套三层标签分类体系。用户通过选择标签组合,前端自动拼接成专业英文 prompt 送给 Stable Audio,不需要自己写英文描述。

10 种音乐风格:

风格典型场景风格典型场景
电子科技短视频、游戏 UILo-Fi播客底音、Vlog
影视感游戏过场、广告片氛围游戏探索、冥想
原声Vlog、教程嘻哈短视频、街头
摇滚运动、激烈场景爵士高端广告
古典纪录片世界音乐旅行 Vlog

9 种情绪维度: 欢快、忧伤、史诗、紧张、平静、活力、神秘、浪漫、黑暗

7 种使用场景: 短视频配乐、Vlog 配乐、游戏配乐、播客底音、广告配乐、片头片尾、直播背景

专业参数全开放

爱声音坊与市面上"一键生成"工具的关键区别在于所有参数开放给用户控制:

  • 基础区: 文本输入、时长滑块(1-180 秒)、模型版本(Stable Audio 2.0 / 2.5)、输出格式(MP3 / WAV)
  • 高级区: 采样步数、Prompt 遵循度(CFG Scale 1-25)、随机种子(可固定复现)
  • 音频改编额外: 参考音频上传 + 改编强度滑块
  • 局部重绘额外: 重绘区间起点/终点选择器

语义理解:DeepSeek V4 Pro

DeepSeek V4 Pro 在爱声音坊中承担两个角色:

一是 prompt 润色。 用户写"一个科幻门打开的声音",DeepSeek V4 Pro 会扩展成详细的英文音效描述,包括材质感、空间感、节奏特征,让 ElevenLabs 生成更准确。润色一条 prompt 的成本不到一分钱。

二是语义搜索。 用户在爱声音坊音效库搜"下雨天坐在窗边看书",传统关键词匹配搜不到,但 DeepSeek 能理解这是"环境音 + 雨声 + 安静氛围",返回匹配的结果。

关键信息: 爱声音坊使用 DeepSeek V4 Pro 做语义层,用其低成本优势(约为同类模型的十分之一)实现 prompt 优化和语义搜索两个功能,提升音效生成质量和搜索效率。

编辑器多轨:Web Audio API

爱声音坊的在线编辑器的另一个核心模块。最初版本只支持单轨编辑——裁剪、淡入淡出、EQ、混响——对于处理单条音效已经够用。但用户开始用爱声音坊生成音乐后,需求变成了"把背景音乐和人声、音效叠在一起"。

爱声音坊基于 Web Audio API 实现了多轨编辑:

能力爱声音坊编辑器
轨道数最多 3 条叠加
每轨控制音量、声像(左右声道)、3 段 EQ(低/中/高频)、混响(8 种预设)
波形渲染实时渲染 + 视口优化
编辑操作裁剪、切割、移动、对齐
导出格式WAV / MP3 / OGG

多轨编辑器的典型使用场景是"背景音乐 + 人声配音 + 音效点缀"三层合成,全部在浏览器内完成,无需打开 Audition 或 FL Studio 等专业软件。


常见问题

爱声音坊的音效和音乐分别用什么 AI 引擎?

音效用 ElevenLabs 生成,音乐用 Stable Audio 生成,DeepSeek V4 Pro 做语义理解和 prompt 优化。三个引擎在爱声音坊中协同工作。

爱声音坊适合哪些人用?

视频创作者、独立游戏开发者、播客主播、广告制作人。只要需要定制音效或背景音乐,都可以在爱声音坊用中文描述生成。

生成的内容可以商用吗?

可以。爱声音坊上所有 AI 生成音效、AI 生成音乐、平台音效库素材均可直接商用(短视频、游戏、播客、广告等),无需额外授权。

生成失败会扣积分吗?

不会。在爱声音坊生成失败、超时或报错时,消耗的积分全额自动返还。

支持什么格式下载?

爱声音坊编辑器支持导出 WAV、MP3、OGG 三种格式。

爱声音坊的月卡多少钱?

早鸟价轻享 ¥6.9/月、标准 ¥19.9/月、专业 ¥69.9/月。注册即送 200 积分免费体验,无需绑卡。


总结

从音效到音乐,从单轨到多轨,爱声音坊 (AiSounds) 在做的事情是把"创作者音频工具"这个拼图一块块补齐。技术架构上分层清晰:DeepSeek V4 Pro 做理解层,ElevenLabs 和 Stable Audio 做生成层,Web Audio API 做编辑层,各司其职。

如果你也在做音频方向的创作或开发,欢迎来 aisounds.cn 体验爱声音坊,注册送 200 积分免费试用。GitHub 地址:github.com/liushafeiniao/aiwave

标签: none

添加新评论