Suno v5.5 Your Voice ч.3

Ваш голос с Suno v5.5 (ч.3)

Тестирование ч.3

Продолжение тестирования опции "Your Voice" (см. ч.1 и ч.2). Собрал новые DS (теперь их 17). Кажется, один свой голос настроил "на хорошо".

Mixed (M4) — первый универсальный, рабочий DS

В первом Mixed (M1) я смешивал Normal, Power, Theater, Crying в равных пропорциях (по времени). Но Theater, Crying делали вокал несерьезным — это видно в примерах.

Собрал M2 из DS где не было речитативов и приколов:

OneSong — 45%, Normal — 31%, Power — 14%, Breathy — 10%.
Причем, специально оттюнил фразы не по тону, а с уменьшением вибрато и "поъездов". Сами фразы из разных "подач" были в DS перепутаны. Длительность максимальная — 4 мин. Но в такой пропорции (% — время) в генерации было много "опоры" (Power, OneSong).

Изменил доли и собрал M3:

OneSong — 14%, Normal — 69%, Power — 9%, Breathy — 8%.
Эти % не абсолютны, т.к. в OneSong, по сути, есть разные "подачи".
M3 — первый DS, с которым генерация меня почти устраивала, но местами "торчали низы" (close mic — запись тихого вокала близко к микрофону), видимо, от Normal и Breathy, хотя все манеры до сборки корректировал (EQ). Сделал еще одну коррекцию НЧ + легкую компрессию, чтобы выровнять по амплитуде — получил Mixed 4.

Сразу решил попробовать М4 в режиме Cover на своих старых песнях и генерациях v3.5. Что-то вышло, что-то нет — сделаю позже отдельный раздел по "перемножению" голосов. Пока только пост в MAX и несколько примеров.

Примеры с M4 (Cover)

исходн. v3.5 "... многое, что не было" гол. AU
M4 Cover v5.5 "... многое, что не было" 179

исходн. v3.5 "Мозг лимбический" гол. AU
M4 Cover v5.5 "Мозг лимбический" 139

исходн. v3.5 "Бледно-розовый оттенок" def.voc
M4 Cover v5.5 "Бледно-розовый оттенок" 179

Как видно, в этих треках, в спокойных, "мягких" стилях M4 с Cover работает нормально.

Генерации с M4

Чтобы лучше проверить DS, я попробовал разные промпты/ Styles, а не только подходящие для "среднего, обычного" голоса (т.е. без особой "опоры" и высоких нот).

Lo-fi Trap: A cozy lo-fi trap piece feels like a quiet moment of reflection in a dimly lit room with city lights outside, Delivery is conversational and understated, treated with tape hiss, light delay, and vintage reverb, Tempo is 82 BPM, swing-influenced groove with shuffling hi-hats, Tonality is minor, Crackling vinyl samples, jazzy piano chords, sliding bass, and soft percussion build a nostalgic, homemade intimacy. 179
"Мужское счастье"

Urban romance: A sombre urban romance track echoes with melancholy and life’s quiet hardships, like a solitary walk through foggy streets at dawn, Delivery is raw and heartfelt, treated with room reverb and light compression, Tempo is 80 BPM, laid-back 4/4 groove with sparse instrumentation, Tonality is minor, Acoustic guitar (fingerpicked), accordion drone, upright bass, and soft brushes on drums create a nostalgic, rustic mood. 159
"Роза без настроя"
Vocal Experiment: An unexpected combination of different singing styles: drawn-out and jazz scat. First, a very drawn-out singsong, holding a note as long as possible, then a transition to dynamic articulation in a scat style, Then drawn-out again, and so on. 159
"Протяжно+Scat"

Hard Rock: A high-energy hard rock anthem with aggressive drum fills and a surprisingly soft, melodic piano bridge. The track features a blistering electric guitar solo that cuts through the heavy rhythm. It is fast-paced, bold, and slightly chaotic, blending raw power with moments of unexpected vulnerability and sharp transitions. 179
"Держись!"

Acoustic Pop: Intimate modern acoustic pop, warm fingerpicked steel-string + soft stomp/clap, airy vocal harmonies, subtle synth pads, melodic hook, bittersweet hopeful, 92 bpm, radio-clean mix. 189
"Врун" (Ru), "Врун" (En)
Soul: Oldies soul, gospel-tinged soul, 96 BPM, train groove, percussive acoustic guitar, string slaps, Rhodes stabs, muted guitar chops, warm bassline, tambourine backbeat, rich harmonies, epic choir, falsetto ad-libs, dynamic chorus lift, tape saturation, plate reverb, mono verse, stereo chorus, bittersweet yearning. 189
"Поезд" (Ru), "Поезд" (En)

House: Dreamy bass house, dreamstep influence, 126 bpm feel, deep sub bass, crisp drums, wide synth pads, airy topline, modern clean mix, festival-ready drop, emotional but restrained. 189
"Держись!" (Ru), "Держись!" (En)

Комментарии

1. После промпта приведены цифры, например, 179. Это значение параметров (Weirdness, Style/Audio influence) — 10%, 70%, 90%. Последний — степень влияния голосового DS. Задача — сделать его максимальным, а случайность (Weirdness) — минимальной. Пробовал даже 0,0,100, но тогда число ошибок в генерации больше. Это буквально как "держать художника за руку, пока он рисует" — надо всё-таки давать немного свободы.
2. Старался исключать в промптах описание вокала. Suno, развивая песню, и без этого выходит за рамки возможностей DS. Но в Vocal Experiment, напротив, ставил задачу максимально разнообразить вокал, посмотреть, как ведёт себя M4 на больших и малых длительностях.

3. Несмотря на разные стили, M4 "работает" без резких переходов в дефолтный, как было в предыдущих тестах с другими DS. Даже выходя за мою верхнюю границу диапазона (Ре/Ми), тембр в целом сохраняется. Конечно, остаётся эффект деградации тембра от начала к концу трека, это т.н. проблема "связности" (отмечал в ранних постах) — система "забывает", что было ранее. При сбое с двойной длиной (что ещё случается) в конце трека длительностью 7-8 мин. голос может переродиться и в женский.

4. Как и всегда, Lyrics оказывает существенное влияние на генерацию. Вот в "Поезд" (Soul) на Ru меняется гармония в сторону It, Fr, Sp (ну и нашей), хотя изначально (как в En) это Америка, может UK.
5. С английским в v5.5 в режиме "Your Voice" беда. Были сомнения насчет акцента, спросил у друзей. Вот ответы:

МакКинли: "... на мой взгляд, начало трека определённо звучит наиболее по-русски и ближе всего к твоему пению из всего, что я слышал. Иногда акцент то появляется, то исчезает, в зависимости от того, как Suno формирует вокальную фразировку или вокальные пассажи."

Рик Пол: "... да, славянский/ русский акцент довольно ярко выражен во всех примерах. Он особенно заметен в звуке «р», а также в выделении некоторых других согласных, хотя иногда и на гласных".

Надо ещё спросить, а с их DS (т.е. на английском материале) тоже косяки?
6. В целом считаю этот опыт с Mixed #4 вполне удачным*.

Думаю, такой подход (комбинация разных "подач" в одном наборе) — рабочий способ сделать DS человеку с непоставленным голосом, т.е. не профессионалу. При этом важно, что DS собирается из разных песен и со случайным расположением фраз (!), — это не даёт Suno выцепить конкретную мелодию, темп, ритмический характер, а потом генерить, отталкиваясь от этого. Т.о. "случайность" фраз в DS делает его более универсальным.

Не скажу, что мне нравятся все генерации с M4, в v3.5 всё было как-то гармоничнее. Однако теперь у меня есть вполне рабочая модель для спокойных песен.

* Честно говоря, ещё пару недель назад я думал, что работать нормально, так чтобы меня устраивало, голосовые DS не будут (генерации с приколом не в счёт).
Название / Имя файла
© 2009-2026 Alexey Ustinov