OpenAI发布了其AI音乐创作的深度神经网络—MuseNet

电子工程师 2019-04-29 3448

电子说

1.3w人已加入

描述

AI 创作音乐越来越热门。

刚刚，OpenAI 发布了其 AI 音乐创作的深度神经网络—MuseNet，可以使用 10 种不同乐器、风格如乡村乐、莫扎特、披头士乐队等，生成出 4 分钟的音乐。

OpenAI 博客最新发布文章指出，MuseNet 不是依靠人类明确地对音乐进行编程，而是通过学习预测 token 来学习和声、节奏、风格的模式，他们从许多来源收集 MuseNet 的训练数据，像是 ClassicalArchives、BitMidi 网站上的文件、MAESTRO 数据集，还有爵士、流行、非洲、印度和阿拉伯风格的音乐，总共利用了数十万个 MIDI 文件。

OpenAI 也指出，MuseNet 使用与 GPT-2 相同的通用无监督技术，GPT-2 为先前 OpenAI 提出的一个大规模 Transformer 模型，训练 AI 可预测序列中的下一个 token，包括音频和文本，用在 MuseNet 上则是给定一组音符后，要求 AI 预测后面会出现的音符。另外，MuseNet 使用 Sparse Transformer 的重新计算和优化核来训练一个具有 24 个注意力头（attention head）的 72 层网络，其全部注意力都放在 4096 个 token 的语境中。

当 MuseNet 知道许多不同的风格之后，就能混合生成新的音乐，举例来说，提供机器肖邦夜曲（Chopin Nocturne）的前 6 个音符，但是，要求机器生成一段流行乐，并要有钢琴、鼓、bass 和吉他，而机器生成的音乐就完美融合了肖邦和 Bon Jovi 两种风格。

图｜ MuseNet 音乐生成神经网络（来源：OpenAI）

之前 OpenAI 提出的 GPT-2，使用近 40 GB 的网页文字训练而成，主要具备了生成文本、预测下一个文字的能力，例如只给机器一段文字，就会因应前后文的风格创造内容、编写故事，但因为它生成的内容有条有理，仿真技术高，反而让外界担心助长假新闻、网络假消息的泛滥，在考量该技术可能遭恶意使用后，OpenAI 决定不放出训练好的模型，只公开一小部分模型和范例。

现在用在音乐创作上，可能引起的争议相对小，倒是为 GPT-2 找到了不错的应用场景。

另外，OpenAI 刚刚还在 Twitch 上举办了 MuseNet 实验音乐会，并预计在 5 月中旬放出该音乐转换器的工具——MuseNet共同作曲家（MuseNet-powered co-composer），让一般大众和音乐家用来创作。

MuseNet 共同作曲家有几种模式：简单模式下，用户会听到已经预先生成的随机样本，然后选择一个作曲家或风格，就可以开始生成音乐；高级模式，则可让用户有更多的选择，像是选风格、乐器等，打造全新的音乐作品。

图｜MuseNet 在 Twitch 上举办一场音乐会（来源：Twitch）

OpenAI 研究人员 Christine Payne 指出，MuseNet 仍有局限性，因为它是通过计算所有可能的音符和乐器的概率来产生每个音符，所以偶尔会做出不和谐的选择，做出奇怪的配对，例如把肖邦风格配上 bass 和鼓。

今年 3 月，谷歌为庆祝知名音乐家巴赫的生日，在 Google Doodle 放了一个小游戏，用户在 Doodle 按下音符及节奏，就会以巴赫的风格演奏用户创作的作品。这是使用人工智能作曲的另一个案例。

不仅谷歌、OpenAI，唱片业、音乐人本身也都在探究 AI 的应用，在 MuseNet 于 Twitch 上举办音乐会之前，音乐技术专家 CJ Carr 和 Zack Zukowski 就在 YouTube 频道上播放重金属音乐，这些死亡金属串流音乐就是由他们开发的 AI 乐团 Dadabots 所生成的，而且 24 小时不间断。他们使用加拿大的死亡金属乐团 Archspire 的样本训练 SampleRNN 神经网络，进而可自动生成重金属音乐。

毫无疑问，人工智能将持续融入创意音乐领域。

图｜重金属音乐不间断播放，背后其实是一个 AI 乐团（来源：YouTube）

打开APP阅读更多精彩内容