2026.03.24 朋友圈记录,现搬运至博客。是一个自己玩的小玩具,偏实验性。
2025 年 8 月 15 日,我做了一个以 MIDI 为主的、实验性 AI 音乐生成项目(ARCEAE-MIDI)。
今天,在学习了更多知识后,我在此介绍一个相对更成熟、端到端音频生成的项目:
Arceae — ARrange and CrEAtE music。
【开源仓库地址】https://github.com/zhaiwangyuxuan/mucodec2musicLM
Project 页面:mucodec2musicLM
【模型架构】
在本项目中,我们采用「文本条件 + 音频」统一离散表示:用 MuCodec [2] 将波形编码为 codec token,与风格标签、分段英文描述、歌词及音素一起映射到同一套词表里,由因果 Transformer 语言模型自回归预测音频 token,再经 MuCodec 解码回 48 kHz 立体声(见结构图)。
【训练测试数据】
数据使用 Muse [1] 论文配套开源数据:受算力限制,我们只取训练集中每首英文曲目的前三段,过滤过长序列后,共约 6.66 万条段落级样本用于训练。
【模型参数】
- 统一词表 168058(Qwen 子词 + 特殊标记 + 16384 个 MuCodec 码)
- 24 层 Transformer,d_model=1024,16 头,FFN 4096
- 最大序列长度 8192,总可训练参数约 483M
【训练 / 推理】
- 训练:4×A800,每卡 batch 2,7 epoch,AdamW,学习率 3e-4,FP16 AMP
- 推理:给定 JSON(整曲风格 + 各段描述、歌词、时间轴),模型逐段生成 codec 序列并解码为 WAV;温度、MuCodec 扩散步数等可调(详见开源仓库)
【Case study】
- 成功:Electronic Dance Pop、Acoustic Folk 等场景下,部分样本在风格贴合、歌词可辨、旋律完整性上表现较好,并配有波形、梅尔谱与试听。
- 失败:Alternative Rock 等 case 出现后半段无限重复、难以干净收尾,说明长序列稳定性与终止机制仍有改进空间。
参考文献
[1] Muse 数据集与说明见 https://github.com/yuhui1038/Muse
[2] MuCodec 论文:https://arxiv.org/pdf/2409.13216