Продолжение тестирования опции "Your Voice" (см. ч.1 и ч.2). Собрал новые DS (теперь их 17). Кажется, один свой голос настроил "на хорошо".
Mixed (M4) — первый универсальный, рабочий DS
В первом Mixed (M1) я смешивал Normal, Power, Theater, Crying в равных пропорциях (по времени). Но Theater, Crying делали вокал несерьезным — это видно в примерах.
Собрал M2 из DS где не было речитативов и приколов:
OneSong — 45%, Normal — 31%, Power — 14%, Breathy — 10%.
Причем, специально оттюнил фразы не по тону, а с уменьшением вибрато и "поъездов". Сами фразы из разных "подач" были в DS перепутаны. Длительность максимальная — 4 мин. Но в такой пропорции (% — время) в генерации было много "опоры" (Power, OneSong).
Изменил доли и собрал M3:
OneSong — 14%, Normal — 69%, Power — 9%, Breathy — 8%.
Эти % не абсолютны, т.к. в OneSong, по сути, есть разные "подачи".
M3 — первый DS, с которым генерация меня почти устраивала, но местами "торчали низы" (close mic — запись тихого вокала близко к микрофону), видимо, от Normal и Breathy, хотя все манеры до сборки корректировал (EQ). Сделал еще одну коррекцию НЧ + легкую компрессию, чтобы выровнять по амплитуде — получил Mixed 4.
Сразу решил попробовать М4 в режиме Cover на своих старых песнях и генерациях v3.5. Что-то вышло, что-то нет — сделаю позже отдельный раздел по "перемножению" голосов. Пока только пост в MAX и несколько примеров.
Примеры с M4 (Cover)
исходн. v3.5 "... многое, что не было" гол. AU
M4 Cover v5.5 "... многое, что не было" 179
исходн. v3.5 "Мозг лимбический" гол. AU
M4 Cover v5.5 "Мозг лимбический" 139
Как видно, в этих треках, в спокойных, "мягких" стилях M4 с Cover работает нормально.
Генерации с M4
Чтобы лучше проверить DS, я попробовал разные промпты/ Styles, а не только подходящие для "среднего, обычного" голоса (т.е. без особой "опоры" и высоких нот).
Lo-fi Trap:A cozy lo-fi trap piece feels like a quiet moment of reflection in a dimly lit room with city lights outside, Delivery is conversational and understated, treated with tape hiss, light delay, and vintage reverb, Tempo is 82 BPM, swing-influenced groove with shuffling hi-hats, Tonality is minor, Crackling vinyl samples, jazzy piano chords, sliding bass, and soft percussion build a nostalgic, homemade intimacy. 179 "Мужское счастье"
Urban romance:A sombre urban romance track echoes with melancholy and life’s quiet hardships, like a solitary walk through foggy streets at dawn, Delivery is raw and heartfelt, treated with room reverb and light compression, Tempo is 80 BPM, laid-back 4/4 groove with sparse instrumentation, Tonality is minor, Acoustic guitar (fingerpicked), accordion drone, upright bass, and soft brushes on drums create a nostalgic, rustic mood. 159 "Роза без настроя"
Vocal Experiment:An unexpected combination of different singing styles: drawn-out and jazz scat. First, a very drawn-out singsong, holding a note as long as possible, then a transition to dynamic articulation in a scat style, Then drawn-out again, and so on. 159 "Протяжно+Scat"
Hard Rock:A high-energy hard rock anthem with aggressive drum fills and a surprisingly soft, melodic piano bridge. The track features a blistering electric guitar solo that cuts through the heavy rhythm. It is fast-paced, bold, and slightly chaotic, blending raw power with moments of unexpected vulnerability and sharp transitions. 179 "Держись!"
House:Dreamy bass house, dreamstep influence, 126 bpm feel, deep sub bass, crisp drums, wide synth pads, airy topline, modern clean mix, festival-ready drop, emotional but restrained. 189 "Держись!" (Ru),
"Держись!" (En)
Комментарии
1. После промпта приведены цифры, например, 179. Это значение параметров (Weirdness, Style/Audio influence) — 10%, 70%, 90%. Последний — степень влияния голосового DS. Задача — сделать его максимальным, а случайность (Weirdness) — минимальной. Пробовал даже 0,0,100, но тогда число ошибок в генерации больше. Это буквально как "держать художника за руку, пока он рисует" — надо всё-таки давать немного свободы.
2. Старался исключать в промптах описание вокала. Suno, развивая песню, и без этого выходит за рамки возможностей DS. Но в Vocal Experiment, напротив, ставил задачу максимально разнообразить вокал, посмотреть, как ведёт себя M4 на больших и малых длительностях.
3. Несмотря на разные стили, M4 "работает" без резких переходов в дефолтный, как было в предыдущих тестах с другими DS. Даже выходя за мою верхнюю границу диапазона (Ре/Ми), тембр в целом сохраняется. Конечно, остаётся эффект деградации тембра от начала к концу трека, это т.н. проблема "связности" (отмечал в ранних постах) — система "забывает", что было ранее. При сбое с двойной длиной (что ещё случается) в конце трека длительностью 7-8 мин. голос может переродиться и в женский.
4. Как и всегда, Lyrics оказывает существенное влияние на генерацию. Вот в "Поезд" (Soul) на Ru меняется гармония в сторону It, Fr, Sp (ну и нашей), хотя изначально (как в En) это Америка, может UK.
5. С английским в v5.5 в режиме "Your Voice" беда. Были сомнения насчет акцента, спросил у друзей. Вот ответы:
МакКинли: "... на мой взгляд, начало трека определённо звучит наиболее по-русски и ближе всего к твоему пению из всего, что я слышал. Иногда акцент то появляется, то исчезает, в зависимости от того, как Suno формирует вокальную фразировку или вокальные пассажи."
Рик Пол: "... да, славянский/ русский акцент довольно ярко выражен во всех примерах. Он особенно заметен в звуке «р», а также в выделении некоторых других согласных, хотя иногда и на гласных".
Надо ещё спросить, а с их DS (т.е. на английском материале) тоже косяки?
6. В целом считаю этот опыт с Mixed #4 вполне удачным*.
Думаю, такой подход (комбинация разных "подач" в одном наборе) — рабочий способ сделать DS человеку с непоставленным голосом, т.е. не профессионалу. При этом важно, что DS собирается из разных песен и со случайным расположением фраз (!), — это не даёт Suno выцепить конкретную мелодию, темп, ритмический характер, а потом генерить, отталкиваясь от этого. Т.о. "случайность" фраз в DS делает его более универсальным.
Не скажу, что мне нравятся все генерации с M4, в v3.5 всё было как-то гармоничнее. Однако теперь у меня есть вполне рабочая модель для спокойных песен.
* Честно говоря, ещё пару недель назад я думал, что работать нормально, так чтобы меня устраивало, голосовые DS не будут (генерации с приколом не в счёт).