Завершил все 5 разделов по теме Suno как аранжировщик.
Тест #1 / от спетой мелодии, текста... ("По-Гру-Гла-Но ...").В задании Style в Suno детских голосов нет. Самое близкое это Vocaloid др. синтетика. Поэтому многие спрашивали об этом. Вот мои первые тестовые генерации... честно, дело "темное". Как получу более менее стабильный и относительно качественный результат, дополню эту заметку комментариями и примерами.
Напомню, превышать длительность в 1 мин. нельзя!
Вот текст, который я использовал. Не факт, что он самый правильный.
Помимо записи речи с максимальным охватом диапазона (верх/низ), я что-то говорил по-громче (почти крик),
а что-то по-тише (почти шепот). Плюс к этому, пропел раздельно гласные (7-8 всего),
тоже в достаточно широком диапазоне, и вставил их в разрыв речи, "случайным" образом.
В записи вырезал вдохи, паузы, повторы, срезал низ/верх (EQ, 150Hz/8kHz), немного "поджал" (Comp),
нормализовал и сохранил в mp3/mono/320kbps (просто, чтобы был меньше размер).
Но, ... поведение Suno крайне вероятностно, эти рекомендации
не гарантируют желаемый результат... и это весело.
" Аэрофотосъёмка ландшафта уже выявила земли богачей и процветающих крестьян. Бегом марш! У месторождения кварцующихся фей без слёз хочется электрическую пыль и Блеф. Борец за идею Чучхэ выступил с гиком, шумом, жаром и фырканьем на съезде — и в ящик № 1234 5678 90. В чащах юга жил бы цитрус? Да, но фальшивый экземпляр! Всё ускоряющаяся эволюция компьютерных технологий предъявила жёсткие требования к производителям как собственно вычислительной техники, так и периферийных устройств. Вступив в бой с шипящими змеями — эфой и гадюкой, — маленький, цепкий, храбрый ёж съел их. Государев указ: душегубцев да шваль всякую высечь, да калёным железом по щекам этих физиономий съездить! Друг мой эльф! Яшке б свёз птиц южных! Завершён ежегодный съезд эрудированных школьников, мечтающих глубоко проникнуть в тайны физических явлений и химических реакций. Здесь фабула объять не может всех эмоций — шепелявый скороход в юбке тащит горячий мёд. "
Из переписки понял, что нужно дать более строгое описание процедуры, вот она:
Всю эту неделю я тестировал режим Audio Input с целью получить песни в "своем исполнении". Сделал несколько 1-минутных Datasets из своего голоса. Задача - "вложить" в 1 мин:
Как (предположение) в этом режиме работает Suno?
Алгоритм пытается найти, распознать "музыкальный смысл" - ритмика, гармония,
мелодические линии, форма, аккомпанемент, а затем "дописать"
фонограмму, учитывая и Promt (введенный нами Стиль). Поэтому,
при создании голосовых Dataset после ds1 я старался "спутать" материал,
чтобы никаких разумных звуковысотных линий (как в пропевании текста) там не встречалось.
На генерацию влияет как исходный материал, так и Стиль. Так с ds1 и ds4
(где было пение) результат тоже был более "певучим".
С ds2i Suno работать не стал и применил дефолтный голос - потому, видимо,
что "правильных" фонем не обнаружил (они же были перевернуты).
Мои наборы, скорее, в регистре баритона и когда я выбирал стиль, как Soul, где тесситура повыше,
то Suno явно добавлял чужие фонемы, а иногда и просто заменял мои. Плюс пение приобретало
явную подвижность - мелизмы, опевания то, чем я так хорошо не владею. В итоге голос
уже меньше походил на мой - кто-то в моей одежде, но движется с несвойственной мне походкой.
В задании стиля нельзя указывать что-то на голос: Male voice, Lounge Singer и т.п.
В этом случае Suno применит голос по своему выбору.
Ваш голос (с одним и тем же Dataset) будет звучать по-разному не только в разных Стилях,
но и в генерации песен с одним и тем же Стилем. Связано это с тем,
что каждый раз выбирается новая модель или новое случайное число (Seed) того же алгоритма.
Suno редко строго следует тексту (Lyrics) и командам, как [Intro], [Verse] и др.
Поэтому я стал постоянно добавлять в начале Lyrics
такую команду [Strictly follow the lyrics below] - в 70% случаев это помогает.
В конечном итоге, чтобы собрать готовую песню со своим голосом, я делал несколько версий,
выбирал удачную, иногда (когда часть текста отсутствовала вообще или пропевалась криво)
- дописку к ней с недостающим текстом. Затем все пересобирал в Reaper. Ну, и слегка "мастерил."
Версии со своим голосом я сделал для "Милый идиот", "Мне просто не повезло",
"Город мой".
Вчера (6 июля 2024) сочинил и "исполнил" на английском песню- "подсказку"
- "Suno sings in my voice!". В ней краткое пояснение о Dataset и есть обращение
к МакКинли Хибиттсу (McKinley Hibbits), тому коллеге из Калифорнии,
который помог мне вникнуть в ИИ технологию RVC (замена тембра вокалиста).
Все мои песенные примеры в каталоге.
Потрясающая функция: Suno "дорисовывает, дописывает" то, что ему подсунули!
Длительность фрагмента 6 - 60 секунд.
Также, как и с картинкой - точность "дописки" зависит от того, какой длительности фрагмент вы ему "скормили".
Точнее, загрузить можно
и 60 сек., но продолжение указать с 0:05. В последнем случае Suno,
скорее всего, "нечего будет повторять" :-)
В принципе, в 1 минуту может уложиться куплет, припев и короткий инструментальный проигрыш.
Suno анализирует этот материал
и дальше (Extend) генерит 2 варианта чего-то подобного,
согласно введенного текста или без него (опция Instrumental).
Судя по всему, влияние заданного стиля в этом режиме зависит от
длительности используемого фрагмента. Если 10 сек. - то влияние очень заметное,
если 30 сек. - стили смешиваются (заданный и тот, что во фрагменте), 60 сек. - очень слабое.
Пробовал режим на нескольких треках, а для песни "Милый идиот"
разместил варианты на сайте -
см. версию 4.0. В стиле указывал "The same style".
Причем, Suno копирует не только инструменты, но и исходный голос (оригинальная версия есть в конце стр.).
Но! Самое удивительное в том, что режим позволяет сделать песню с вашим голосом!
Тут не всё идеально работает, однако, стоит пробовать. Надо:
1. Собрать 60 сек. записи своего голоса (нечто вроде короткого Dataset для
RVC). Желательно "мимо нот и ритма",
в максимально широком высотном диапазоне и присутствием всех фонем.
2. Загрузить это как фрагмент для Audio Input - Suno "получит" только голосовой материал, и никакие, по сути,
параметры стиля (гармония, темп, инструменты и пр.), не будут ему представлены.
3. Задать текст, выбрать стиль и ... Вуаля! - вот вам песня Suno с вашим голосом.
Смотрите примеры и комментарии к ним.
Я уже пояснял этот момент, как в краткой
инструкции,
так и в статье. Как и с заданием стиля (Style / Promt),
здесь очень полезно изучать готовые примеры Suno других пользователей - видно, что было задано и как "отработано".
Фактически, команды не ограничены каким-то списком (как в Wiki).
Suno часто "понимает" и "произвольное" задание, если оно сделано максимально ясно, т.е. простым языком.
Вот в песне "Хочешь ..." (ссылка) мне нужно было,
чтобы текст пропевался медленнее. Я попробовал в начале текста команду [half tempo singing melody],
т.е. "пение в два раза медленнее, чем музыка". В этой песне, кстати, одни версии с этой командой, а другие - без.
Что-то Suno исполняет, а что-то нет. Я вот неоднократно пытался сделать песню с мужским и женским голосом,
а также с пением дуэтом (видел подобное)
- ставил в разных частях текста [Female voice], [Male voice], [Chorus duet] - не получалось.
А в какой-то песне Suno в конце добавил припев женским, хотя в стиле было указано [Male voice].
Я думаю, это зависит от стиля, точнее "модели", которую Suno выбирает к заданному нами стилю.
Основные моменты приведены в краткой
инструкции и в
статье на Хабре. До того, как
собирать свой каталог, я смотрел Promt'ы у других пользователей,
читал Wiki. Сначала, когда не очень хорошо
понимал сам принцип генерации в Suno, я полагал, что есть строгая система команд.
Практика показала, что это не так. Конечно, я придерживался "своего" правила:
"Сначала стиль/ритм, потом голос, потом всё остальное"... Но часто я не понимал, как терминами
из Wiki задать стиль, особенно, если это не мэйнстрим, а что-то не очень популярное. Например,
песня для театра "Музыкальной комедии" - как современная оперетта и т.п.
Тогда я старался смотреть чужие примеры и копировать стиль. Иногда он был задан ясно и строго, иногда
- набор, мешанина (видимо, в надежде, что что-то из приведенного сработает).
Также я взял за правило записывать в раздел Suno в Obsidian стили ко всем примерам, экспериментам,
которые делал (уже более 400-х). А в Suno я почти все отработанные треки удаляю, чтобы не усложнять себе работу.
Что-то об этом есть в статье.
и что-то в инструкции.
Я пробовал все способы, но написание гласной заглавной буквой, показалось мне более надежным.
Suno почти всегда делает акцент в этом случае. Но, проблема ведь в том, что ударение в слове,
по-хорошему, должно совпадать с сильной (или достаточно сильной) долей в ритмической сетке.
А это далеко не всегда так.
Для установки значка ударения (надстрочного диакритика у лингвистов) я просто копировал букву из набора
а́, е́, и́, о́, у́, ы́, э́, ю́, я́ . Но его можно получить и иначе:
в Word'е надо поставить курсор после буквы, а затем набрать 0769 при нажатой левой клавише Alt.
© 2009-2024 Alexey Ustinov