Вот как спела Аня, девушка, которая не владеет английским и не поёт (сначала 20 сек оригинал, затем Аня).
* ИИ - искусственный интеллект
1. Берется 10-20 минут записи голоса человека - речь, пение (даже мимо нот) и создается NVM - Нейронная Голосовая Модель.
2. В готовой песне разделяется исходный вокал и музыка (тоже с помощью ИИ).
3. Специальный ИИ алгоритм RVC заменяет исходный тембр на новый, сохраняя манеру пения (особенности интонирования).
Голос можно записывать даже на смартфон, но надо учесть несколько моментов:
Алгоритм RVC работает по принципу замены в исходном вокале всех фрагментов (элементов фонем)
на похожие из вашей модели (NVM).
Так что если какой-то звук отсутствует, то он будет заменяться на другой.
Если вы ни разу не записали "М", но есть "Н", то из слова "мама" получится "нана" и т.п.
Тоже самое и с подачей (с опорой - громко, с придыхом - тихо) и регистром (высоко / низко).
Поэтому и такие требования к сбору голосового материала - желательно, чтобы в нем было ВСЁ.
Впрочем, алгоритм изо всех сил будет стараться исполнить исходный трек вашим тембром,
даже петь выше / ниже вашего естественного диапазона.
Давайте разберем это на примере походки и одежды.
Мы различаем певцов не только по тембру (одежда), но и по манере (походка).
Кто-то поёт ровно (походка), без особых элементов, а у кого-то - подъезды, спуски,
глубокое, медленное или частое вибрато, или множество опеваний (как в соул, джазе или народной музыке)
- т.е. заметные особенности в интонировании (в походке).
Алгоритм RVC как бы одевает ваш тембр на исходную манеру, т.е. меняет одежду, НЕ меняя манеру движения, походку.
Так вот, если ваш тембр вполне обычный, то он не сможет перекрыть певца с яркой манерой.
Фактически тембр будет вашим, а вот походка не ваша. И наоборот,
если у вас какой-то особенный тембр, то он будет хорошо заметен.
Отсюда и выбор песни для замены тембра - вряд ли стоит брать для эксперимента сразу что-то сложное в вокальном смысле.
Результат работы RVC зависит от качества как модели, так и исходного вокала*.
Конечно, лучше бы всего было использовать чистый (без эффектов) вокальный трек из студии.
Однако найти такое сложно, поэтому используют ИИ алгоритмы для выделения исходного вокала.
Такое выделение редко бывает качественным. В треке часто присутствует реверберация (эхо),
другие инструменты (духовые, смычковые) и даже дополнительные голоса (бэк-вокал, подпевки),
если они в песне есть. В общем, лучше сразу выбирать песню, где инструментов не много
(например, фортепиано, гитара, акустический ансамбль) и вокалисту никто не подпевает.
Сложно извлекать вокал из записи в зале и из современной танцевальной музыки, где голос изменён эффектами.
* Вот к каким искажениям приводит исходный трек с помехами (сначала 24 сек оригинал, затем замена).
Да, технически это легко - исходный вокал в мужском регистре будет поднят (обычно на октаву) и после замены тембра из женской NVM вы получите женское исполнение. Ну, а для перехода из женского в мужской надо регистр понижать (см. примеры).
Похоже, на любых. Вот примеры пения на 8 языках мужской русской NVM.
Надо чтобы кто-то реально спел, ... или сделать трек в Vocaloid, Synthеsizer V или UTAU.
Фактически да - на 15 января 2024 г. сделано более 10 NMV и полсотни каверов.
Все это скорее в стадии экспериментов, но в целом они положительные.
В интернете множество сервисов, как для разделения вокала и музыки, так и для создания моделей и замены тембра.
Недавно я опубликовал статью на Хабре с более подробным изложением этой темы.
Скорее всего, в каких-то студиях звукозаписи уже овладели технологией RVC, но к нам тоже можно обратиться.
Главный вопрос в том, что сложно гарантировать качество результата, пока NMV не создана и не протестирована.
Заметка создана 15 января 2024 г.
Стоит иметь ввиду, что данная технология стремительно развивается.
Вполне возможно, что всего через 2-3 месяца ситуация будет другой, а через пол-года - год все можно будет сделать в своем смартфоне.
© 2009-2025 Alexey Ustinov