С ИИ* не поющие поют на любом языке?

Да, такое теперь реальность!

Вот как спела Аня, девушка, которая не поёт и не говорит на английском (сначала 20 сек оригинал, затем Аня).


* ИИ - искуственный интеллект


Как это работает?

1. Берется 10-20 минут записи голоса человека - речь, пение (даже мимо нот) и создается NVM - Нейронная Голосовая Модель.

2. В готовой песне разделяется исходный вокал и музыка (тоже с помощью ИИ).

3. Специальный ИИ алгоритм RVC заменяет исходный тембр на новый, сохраняя манеру пения (особенности интонирования).

Как мне собрать материал для своей NVM?

Голос можно записывать даже на смартфон, но надо учесть несколько моментов:

  • Желательно говорить протяжно разные тексты;
  • Что-то проговорить как можно ниже, что-то - как можно выше (но своим естественным голосом);
  • Что-то максимально громко, что-то - тихо, почти шепотом;
  • Желательно и попеть, причем, попадать в ноты необязательно;
  • Нужна запись без посторонних шумов и без явных искажений от перегрузки (см. детали);
  • Можно записывать в приложении Диктофон с режимом сохранения в формате wav (44,1 kHz, mono).

Как происходит замена тембра?

Алгоритм RVC работает по принципу замены в исходном вокале всех фрагментов (элементов фонем) на похожие из вашей модели (NVM).

Так что если какой-то звук отсутствует, то он будет заменяться на другой. Если вы ни разу не записали "М", но есть "Н", то из слова "мама" получится "нана" и т.п. Тоже самое и с подачей (с опорой - громко, с придыхом - тихо) и регистром (высоко / низко).

Поэтому и такие требования к сбору голосового материала - желательно, чтобы в нем было ВСЁ.

Впрочем, алгоритм изо всех сил будет стараться исполнить исходный трек вашим тембром, даже петь выше / ниже вашего естественного диапазона.

Будет ли голос в песне похож на мой?

Давайте разберем это на примере походки и одежды.

Мы различаем певцов не только по тембру (одежда), но и по манере (походка). Кто-то поёт ровно (походка), без особых элементов, а у кого-то - подъезды, спуски, глубокое, медленное или частое вибрато, или множество опеваний (как в соул, джазе или народной музыке) - т.е. заметные особенности в интонировании (в походке).

Алгоритм RVC как бы одевает ваш тембр на исходную манеру, т.е. меняет одежду, НЕ меняя манеру движения, походку.

Так вот, если ваш тембр вполне обычный, то он не сможет перекрыть певца с яркой манерой. Фактически тембр будет вашим, а вот походка не ваша. И наоборот, если у вас какой-то особенный тембр, то он будет хорошо заметен.

Отсюда и выбор песни для замены тембра - вряд ли стоит брать для эксперимента сразу что-то сложное в вокальном смысле.

В какой песне можно заменить тембр?

Результат работы RVC зависит от качества как модели, так и исходного вокала*. Конечно, лучше бы всего было использовать чистый (без эффектов) вокальный трек из студии. Однако найти такое сложно, поэтому используют ИИ алгоритмы для выделения исходного вокала.

Такое выделение редко бывает качественным. В треке часто присутствует реверберация (эхо), другие инструменты (духовые, смычковые) и даже дополнительные голоса (бэк-вокал, подпевки), если они в песне есть. В общем, лучше сразу выбирать песню, где инструментов не много (например, фортепиано, гитара, акустический ансамбль) и вокалисту никто не подпевает. Сложно извлекать вокал из записи в зале и из современной танцевальной музыки, где голос изменён эффектами.

* Вот к каким искажениям приводит не качественный исходный трек (сначала 24 сек оригинал, затем замена).


Можно девушке спеть мужскую песню (и наоборот)?

Да, технически это легко - исходный вокал в мужском регистре будет поднят (обычно на октаву) и после замены тембра из женской NVM вы получите женское исполнение. Ну, а для перехода из женского в мужской надо регистр понижать.

На каких языках сможет петь моя NVM?

Похоже, на любых. Вот примеры пения на 8 языках мужской русской NVM.

Что делать, если нет исходного вокала?

Надо чтобы кто-то реально спел, ... или сделать трек в Vocaloid, Synthеsizer V или UTAU.

Делает ли Вирартек NVM и каверы с помощью RVC?

Фактически да - на 15 января 2024 г. сделано более 10 NMV и полсотни каверов. Все это скорее в стадии экспериментов, но в целом они положительные.

В интернете множество сервисов, как для разделения вокала и музыки, так и для создания моделей и замены тембра. Недавно я опубликовал статью на Хабре с более подробным изложением этой темы. Скорее всего, в каких-то студиях звукозаписи уже овладели технологией RVC, но к нам тоже можно обратиться. Главный вопрос в том, что сложно гарантировать качество результата, пока NMV не создана и не протестирована.

support@virartech.ru (Алексей)

Заметка создана 15 января 2024 г.

Стоит иметь ввиду, что данная технология стремительно развивается. Вполне возможно, что всего через 2-3 месяца ситуация будет другой, а через пол-года - год все можно будет сделать в своем смартфоне.

© 2009-2024 Alexey Ustinov