21 миллион чужих песен: расследование вскрыло, на чём тайно учили ИИ-композиторов Suno и Udio
Журналист The Atlantic Алекс Райзнер, который ведёт серию расследований о тренировочных данных ИИ, добрался до самого охраняемого секрета индустрии — что именно «слушали» нейросети вроде Suno и Udio, прежде чем научились писать музыку.
Четыре базы, которые прятали как зеницу ока. Реальные записи для обучения моделей компании держат под замком, называя их «проприетарными». Райзнер раскопал четыре гигантских датасета, что гуляют по рукам внутри сообщества разработчиков: один на 12 миллионов треков, второй на 9 миллионов, и два поменьше — примерно по 100 тысяч песен. Только первый из них пришлось бы слушать без остановки 91 год. Нашёл он их буднично — по ссылкам в научных статьях самих разработчиков и на сайтах обмена данными, где архивы скачаны уже тысячи раз.
Как именно качали. Три из четырёх баз — это списки ссылок на YouTube и Spotify. Само аудио выкачивают автоматическими инструментами, которые умеют обходить логины, рекламу и механизмы, приносящие деньги авторам, — это прямое нарушение правил площадок. Четвёртая база — MP3-файлы с Free Music Archive.
Внутри — фактически вся история записанной музыки. Тейлор Свифт, Nirvana, Билли Айлиш, the Beatles, Bad Bunny, Pearl Jam, Элвис Костелло, Шерил Кроу. Джаз — Майлз Дэвис, Джон Зорн, Виджей Айер. Классические композиторы. И десятки тысяч мелких артистов всех жанров и эпох вперемешку.
Главная улика — не «вдохновение», а копирование. Suno уже неоднократно выдавал треки, до боли похожие на «Thriller» Майкла Джексона, «Shape of You» Эда Ширана, «Johnny B. Goode» Чака Берри, «Rock Around the Clock» и «The Thrill Is Gone» Би Би Кинга. Эти примеры — из иска, поданного крупнейшими лейблами против Suno. То есть модель не абстрактно «училась на стиле», а воспроизводила конкретные чужие произведения почти дословно (один из промптов так и звучал: «исполнитель, который рифмуется с fred sheeran»). Представитель Suno Рэйчел Ракусен в ответ сослалась на «защитные механизмы против несанкционированного копирования» и пост продакт-директора в LinkedIn, где сказано, что воспроизведение обучающих данных «не должно происходить». На вопросы про иск и конкретные использованные треки компания не ответила.
Что признали сами гиганты. Из-за секретности доказать, кто что использовал, обычно невозможно. Но кое-что всплыло: Google в 2022 году обучил модель на 44 миллионах треков — это 42 года непрерывной музыки — и открыто писал, что брал более 100 000 песен с Free Music Archive (бесплатных лишь для личного прослушивания, но платных для коммерции). Suno в судебном документе 2024 года признал, что учился на «практически всех музыкальных файлах приемлемого качества», которые смог скачать из интернета. А OpenAI ещё в 2020-м скачал 1,2 миллиона песен для модели Jukebox.
Почему это важно. ИИ-музыка уже затопила стриминг: Spotify прошлой осенью удалил 75 миллионов «спамных» сгенерированных треков, а сервис Deezer сообщает, что почти половина свежих ежедневных загрузок — это ИИ. При этом ни Spotify, ни YouTube, ни Amazon Music не маркируют такие треки. В судах Suno и Udio прикрываются доктриной «добросовестного использования» (fair use). Но это расследование впервые показывает не отдельные эпизоды, а масштаб: в машину залили не пару плейлистов, а почти всю записанную человечеством музыку — без спроса и без оплаты авторам. Прецедент уже рядом: похожий спор о книгах закончился предварительным соглашением с Anthropic на 1,5 миллиарда долларов.

