редакция 16 августа 2024.

Suno: Audio Input режим

В своей статье "Suno prompt (стиль) = рыбалка. Альтернатива?" на Хабре (8 авг. 2024), я подробно рассмотрел вопрос использования режима Audio Input в Suno, как альтернативу задания стиля с помощью команд в Style. В этом разделе я привожу примеры, сгенерированные в процессе тестирования Audio Input, включая фрагменты, использованные в качестве "исходного материала" для генерации - от простейших (6 сек. Drums + 1 нота), до нарезки в 1 мин. из готовых композиций. + Выводы по каждому примеру.

Мой каталог Suno песен.
Мой Suno дневник.
Раздел Suno: Гармонизация и Autotune.


Invite User

#1. A cappella (Vorob)


Исходник, для Audio Input

Лена Лазорская - голосовой тренер, преподаватель вокала
Звучащие Люди (Telegram)

Хотелось проверить, как Suno смешивает стили - для этого эта а-капелла (42 сек.) оказалась почти идеальным материалом. В Lyrics повторил текст полностью, в Style попробовал разные "задания".

В начале 2000-х, конечно, я бы (на паре по Информатике) привлек студентов теор. отд. консерватории / колледжа - дал каждому по генерации, как задание на анализ формы и гармонии, ... но тогда еще Suno или чего-то подобного не было :-(

...
, Style: Orchestra Strings, Harp
Style: Latin Acoustic Guitar
, Style: Small Jazz Band, Grand-piano, Acoustic bass, Saxophone
, Style: Hindustani, Indian national musical instruments, Percussions
Style: Hip-Hop

Выводы.

1. Прекрасный пример! Оказывается, если вы попадаете в ноты и держите темп/ритм, то вам достаточно спеть, а Suno "подыграет", да еще в стиле, который вы ему укажете!. ( Надо, однако, попробовать спеть "мимо нот и ритма" - и посмотреть, может Suno все еще и подправит :-)

2. Не все указания в параметрах стилей были "исполнены", но в целом получилось достаточно грамотное смешение стиля с "исходником".

3. Конечно, в генерациях местами ломается форма/структура, но в целом - очень хороший и обнадеживающий результат.

#2. "On the Beach" (CROtB)

Был использован инструментальный трек (вокал удален) популярной работы Криса Ри (Chris Rea). В 52 сек. включены разные части композиции, причем, такты перепутаны, что "сломало" риф - иначе Suno не принимал(о) фрагмент. Цель - посмотреть вариативность Suno при одном и том же входном материале и одинаковом Style: Male vocals - т.е. генерацию Similarities.

Представлены волновые формы с разделением Vocal/Instr., чтобы легче анализировать структуру. Длительность треков не превышает 3:07, что соответствует ограничению 4-х мин. рендера (0:52 + 3:07). Выбранная Suno структура (Intro, Verse ...) практически во всех треках с длит. 3:07 не укладывается в макс. время и генерация оборвана. Темп, тональность и аккорды (наличие) у треков (в первые 45 сек.) определены автоматически.


Исходник, для Audio Input
Выводы.

1. В некоторых треках есть плавные, но очень большие изменения темпа, что похоже на сбой в генерации.

2. Suno в целом использует тональность, гармонию и инструменты исходного фрагмента. И, даже если есть развитие, то "сдержанное", поскольку стиль, по сути, не задавался - только Male vocals.

3. В этих примерах мне самым интересным представляется то, что при неизменных условиях (Lyrics, Style) Suno для каждой генерации выбирает новую форму/структуру (Это хорошо видно на треках Voc/Instr.). И если в 1 мин. фрагменте "формы нет" (уж в этом точно), а Lyrics здесь одинаковый и короткий, то значит Suno имеет какие-то шаблоны форм. Если так, то наш "исходник" - "набор красок", которыми "раскрашивается" форма (Intro, Verse, ...).

CROtB. Треки En10 ... En51

Lyrics: [Short instrumental intro] I'm generated based on the same fragment. This fragment was used in audio input mode. So I'm one, actually one of the similarities. It's really fact, it's absolutely true! [Ending]
SIM Tracks En

...
129/Fm - Fm,Cm,Bbm,B,C#,C
128/Fm - Fm,Cm,C,Bbm,Gdim,Gm
128/Fm - Fm,C#,Cm,F,Gdim,Bb
128/Fm - Fm,C#,Cm,F,Bbm,B
128/Fm - Fm,Cm,F,C#,Bbm
128/Fm - Fm,Gdim,C,Cm,C#
128/Fm - Fm,Cm,C#,F,C,Gdim
128/Fm - Fm,C#,C,F,Cm,G
128/Fm - Fm,C#,C,F,Eb,Gdim
128/Fm - Fm,Cm,C#,C

CROtB. Треки Ru10 ... Ru51

Lyrics: [Short instrumental intro] Я создан на основе этого же фрагмента. Фрагмент был использован в режиме Audio Input. Так что я один из многих похожих. Это действительно так, это абсолютная правда! [Ending]
SIM Tracks Ru

...
128/Fm - Fm,Cm,Bbm,B,C#,C
128/Fm - Fm,Cm,C,Bbm,Gdim,Gm
130/Fm - Fm,C#,Cm,F,Gdim,Bb
130/Fm - Fm,C#,Cm,F,Bbm,B
129/Fm - Fm,Cm,F,C#,Bbm
129/Fm - Fm,Gdim,C,Cm,C#
130/Fm - Fm,Cm,C#,F,C,Gdim
127/Fm - Fm,C#,C,F,Cm,G
130/Fm - Fm,C#,C,F,Eb,Gdim
128/Fm - Fm,Cm,C#,C

#3. Два такта Drums + 1 нота (DrTrGb3)

Это проверка, как Suno "отработает" очень простой материал - 2 такта триольных, слегка Jazzy, ударных и ОДНУ ноту - Gb (F#) малой октавы.

Можно ли таким способом задать темп и тональность, привнося минимум своих звуков? Темп - 83 bpm. Длительность - 6 сек.

В Lyrics - ничего, т.е. инструментал, а в Style - разные команды, не совсем согласующиеся с исходником.


Исходник, для Audio Input
v10,v11 - Style: Jazz, Drums, Jazz Guitar, Grand-piano

v20,v21 - Style: Heavy Rock Blues, Distortion Guitar Solo, Harmonica Solo

v30,v31 - Style: Reggae, Clean Guitar Solo, Trombone Solo

Темп, тональность и аккорды (наличие) у треков определены автоматически.

...
83/B - B,C,G,Abm,E,F#
83/B - B,C#m,F#,E,Bm,Abm
83/F# - F#,C#,B,F#m,Bm,C#dim
83/B - B,Bm,Abdim,F#,Abm,E
83/B - B,C#,Abm,F#,Ebm,E
83/Bm - Bm,A,G,F#,B,D

Выводы. Очень показательный пример! Оказывается, так мало нужно, чтобы задать темп и тональность, что точно и впрямую (например, 107 bpm, Abm) в Style невозможно.

1. Изначальный триольный рисунок ударных сохранился и отразился на фактуре во всех генерациях. Конечно, с усложнениями, характерными для указанного стиля. Все стили "сработали на отлично" и в ритмике, свойственной жанру, и в наборе инструментов.

2. С тональностью немного сложнее, но понятно. Исходная нота (Gb/F#), в 5 из 6 треков, принята за IV ступень (субдоминанту), а сама тональность Мажор (в 5 из 6 треков). Скорее всего, это отражает статистику для музыки в выбранных стилях, а может и общую статистику. Для точного задания тональности просто следует включать в "исходник" аккорд.

#4. "Body and Soul" (EGRL)

Группа E-Gens (Новосибирск) - мои стариные друзья и коллеги - Евгений Титков и Евгений Комаров.

Я собрал фрагмент в 59 сек. из их композиции "Body and Soul" (Альбом "Renewed Light", 2013), комбинируя разные по плотности части и сохраняя вокал. В версиях с v10 по v41 Style вообще не задавал. В v50,v51 вписал Jazz, в v60,v61 - Hip-Hop, в v70,v71 - Latin, Acoustic Guitar Solo, однако, генерацию эти указания практически не изменили.

E-Gens

Исходник, для Audio Input

Lyrics

[Instrumental Intro]
E-Gens present their new album "Renewed Light", it's really great! Below is the list of album's songs.
[Verse 1] Pain! Body and Soul! Renewed Light! Hidden Rage! Sunrise! Holy Dreams! Crystal World! Everything is Wise! Sweet Disease! Not for Sale! Think! I'm Your Guide!
[Chorus 1] Listen to the E!-Gens! Listen to the E!-Gens! Listen to the E!-Gens! Listen to the "Renewed Light" (Renewed Light)
[Instrumental Solo] [Breakdown]
[Chorus2] ... [Instrumental Ending]

...
, , , Style: no style
, , , Style: no style
, Style: Jazz
, Style: Hip-Hop
, Style: Latin, Acoustic Guitar Solo

Выводы.

1. Системе хватило материала, чтобы генерить, развивать не только аккомпанемент, сохраняя стилистику, но и вокал (мне кажется, что он, в принципе, похож на исходный).

2. При таком плотном, "самодостаточном" материале Suno не смог(ло) привнести стилистику Jazz, Hip-Hop, Latin, Acoustic Guitar Solo, которую я навязывал сознательно и провокативно. Причем, смешения стилей не произошло, несмотря на то, что указания были "широкими", без деталировки.

#5. Drums + аккорды C#m,Dm (90 и 130 bpm)

Тестирование: как заготовка для House сгенерится со Style Reggae, и наоборот - заготовка для Reggae - со Style House - ведь типичные темпы для стилей разные. И исходные аккорды (C#m, Dm, C#m, Dm...) не характерные ни для Reggae, ни для House.

В каждом фрагменте только Drums + обыгрывание аккордов на фортепиано. Темпы - 90 и 130 bpm. Длительность - 22 и 15 сек. В Lyrics - текст (En) песни "Work" из альбома "Место под солнцем" (CD, 2006).


Исходник 90 bpm для Audio Input

Исходник 130 bpm для Audio Input
Lyrics: [Verse 1] Want some food on your plate - don't wake up so late. Want to butter your bread - don't be lazy instead. What is one man's dew - can be poison to you. Do the job you know best work will feel like rest. Want to win someone's heart - get a job for a start. Only he is good, who provides you with food. (I'm working)

[Chorus 1] Only through working hard you will get the regard. (I'm working) (I'm working)

v10,v11 - Style: House, Male vocals

v20,v21 - Style: Reggae, Male vocals

Темп, тональность и аккорды (наличие) у треков определены автоматически.

...
90/C#m - C#m,Dm,D,C#,Bm,Ddim
90/C#m - C#m,C#,D,A,Dm,E
130/C#m - C#m,D,C#
130/C#m - C#m,D,Dm,Ab,B,A

Выводы.

1. Даже при таком "минимальном" исходном материале система пытается встроить элементы указанного стиля, по сути, в неподходящий "исходник", как по темпо-ритму, так и гармонии - сделать House из Reggae и наоборот.

2. Типичная гармония для Reggae была бы I, V, vi, IV (пусть C,G,Am,F), а для House i, VII, VI (пусть Am,G,F), но Suno без проблем развивает имеющийся материал и добавляет доп. инструменты в последовательность из полутоновых смещений - C#m,Dm,C#m,Dm.

3. Кажется это интересный способ найти что-то необычное, но, в тоже время, "вписывающееся" в жанр, а это важно.

#6. Drums + Chords + свой риф

Цель - "вписать" свой ход в генерацию. Тональность - Dbm, темп - 117 bpm, длительность - 42 сек.

Попробовал эту заготовку для песни "Странная девушка" (v.7.0), а также в нескольких версиях для песни Нины Орловой "Чингачгук". Результат генераций в нарезках из коротких фрагментов - 2 фрагмента из "Странная девушка", и 5 фрагментов из "Чингачгук".


Исходник, использованный для Audio Input
Style для "Странная девушка": Latin, Male voice, Dance, Sultry Singer

Styles для "Чингачгук":
1. Miku voice, Vocaloid, chiptune, electroswing, happy
2. Latin Dance, Vocaloid, chiptune, happy, trumpet solo
3. Latin, Female vocals, Dance, Happy, Trumpet solo
4. Male vocals, Major Key, Happy

2 фрагм. из генерации для п. "Странная девушка"

5 фрагментов из генерации для п. "Чингачгук"
Выводы. Независимо от заданных стилей:

1. Темп сохраняется, исключая сбои (заметное ускорение) и замедление в конце (может быть в форме).

2. Тональность сохраняется, исключая модуляцию (может быть в форме).

3. Ритмика аккордов и своего рифа сохраняется.

4. Поскольку данный риф по характеру ближе у остинатному применению (повтору), то он не включается при смене аккордов, а применяется в основном в проигрышах.

5. Система достаточно хорошо смешивает "исходник" и новые инструменты, согласно заданному стилю.

© 2009-2024 Alexey Ustinov