Research Mar 24, 2026

Arceae

2026.03.24 朋友圈记录，现搬运至博客。是一个自己玩的小玩具，偏实验性。

2025 年 8 月 15 日，我做了一个以 MIDI 为主的、实验性 AI 音乐生成项目（ARCEAE-MIDI）。

今天，在学习了更多知识后，我在此介绍一个相对更成熟、端到端音频生成的项目：
Arceae — ARrange and CrEAtE music。

【开源仓库地址】https://github.com/zhaiwangyuxuan/mucodec2musicLM

【模型架构】

在本项目中，我们采用「文本条件 + 音频」统一离散表示：用 MuCodec [2] 将波形编码为 codec token，与风格标签、分段英文描述、歌词及音素一起映射到同一套词表里，由因果 Transformer 语言模型自回归预测音频 token，再经 MuCodec 解码回 48 kHz 立体声（见结构图）。

【训练测试数据】

数据使用 Muse [1] 论文配套开源数据：受算力限制，我们只取训练集中每首英文曲目的前三段，过滤过长序列后，共约 6.66 万条段落级样本用于训练。

【模型参数】

统一词表 168058（Qwen 子词 + 特殊标记 + 16384 个 MuCodec 码）
24 层 Transformer，d_model=1024，16 头，FFN 4096
最大序列长度 8192，总可训练参数约 483M

【训练 / 推理】

训练：4×A800，每卡 batch 2，7 epoch，AdamW，学习率 3e-4，FP16 AMP
推理：给定 JSON（整曲风格 + 各段描述、歌词、时间轴），模型逐段生成 codec 序列并解码为 WAV；温度、MuCodec 扩散步数等可调（详见开源仓库）

【Case study】

成功：Electronic Dance Pop、Acoustic Folk 等场景下，部分样本在风格贴合、歌词可辨、旋律完整性上表现较好，并配有波形、梅尔谱与试听。
失败：Alternative Rock 等 case 出现后半段无限重复、难以干净收尾，说明长序列稳定性与终止机制仍有改进空间。

参考文献

[1] Muse 数据集与说明见 https://github.com/yuhui1038/Muse
[2] MuCodec 论文：https://arxiv.org/pdf/2409.13216