4 November 2024
Channel «Музыкальные опыты с ИИ» created
AH
15:38
Инф. может устареть уже через неделю 😢 после публикации - технологии ИИ развиваются стремительно☝.
-------------------------
С октября 23 года знакомлюсь с музыкальными ИИ-технологиями. Сделал статьи на Хабре, заметки на сайте, теперь (для оперативности) создал этот канал. Поместил посты-ссылки на свои материалы. Не претендую на полноту освещения темы, но надеюсь, что канал будет полезным.

Отношение к использованию ИИ в творчестве неоднозначное. Тут два момента:

1. ИИ берет лучшие модели, наработанные множеством творцов, поэтому соревноваться с ним сложно даже профессионалу.

2. Большинству слушателей неважно, как было создано произведение: "красота в глазах смотрящего" и теперь ИИ-композиции есть в хит-парадах...

Почти всю жизнь (я с 1957 г.р.) занимался музыкальным железом и ПО, но очень люблю акустику, т.е. живое. Понимаю: "не осваиваем новое - остаемся в прошлом"... Подробнее обо мне на сайте.

P.S. c 12 янв. 25 г. по моему предложению посты также готовит Борис - энтузиаст ИИ технологий (Москва).
17 👍 2
15:53
Генератор музыки... моя первая статья на Хабре, вот примеры.
2
AH
16:24
Замена тембра вокалиста в песне. Статья на Хабре. Заметка на сайте и примеры.
16:31
1-я статья о Suno (генерация песен) на Хабре, заметка на сайте, примеры, Suno-дневник.
👍 1
16:38
2-я статья о Suno на Хабре (свой голос в песнях), примеры, Suno-дневник.
👍 3
16:45
3-я статья о Suno на Хабре (задание стиля чз Upload Audio).
16:51
Suno: Audio Input... Звуковые примеры и комментарии к 3-й статье на Хабре.
17:06
Suno: Гармонизация и Autotune - примеры и комментарии.
AH
17:22
Детский голос в Suno - отдельной статьи не делал, но примеры, комментарии есть в Дневнике, а также в разделе в статье на Хабре.
AH
17:46
Тест #1 (примеры, комментарии) к статье на Хабре.
👍 1
17:51
Тест #2 (примеры, комментарии) к статье на Хабре.
17:56
Тест #3 (примеры, комментарии) к статье на Хабре.
18:00
Тест #4 (примеры, комментарии) к статье на Хабре.
👍 1
18:03
Тест #5 (примеры, комментарии) к статье на Хабре.
18:09
4-я статья о Suno на Хабре (Suno как аранжировщик) . Тесты (примеры и комментарии) на сайте.
18:13
5-я статья о Suno на Хабре (интервью) ... версия на сайте.
AH
19:31
Suno: можно ли задать длительность частей? Небольшой тест (18 окт. 2024).
👍 1
AH
20:14
Снежный ком! weights.gg - еще один ресурс. Принимает в "Upload Audio" из YouTube и генерит песни (~30 сек) в манере и с голосом реального артиста (без запрета, как в Suno). Попробовал Стинга / Shape of My Heart. Английский - хорошо, а вот русский с каким-то чешско-польским акцентом. Причем, сам голос не хоровой, как в Suno, но ш/щ торчат... Результат скормил Suno в Audio Input (уже не ругался) - русский хорошо, но голос еще дальше от Стинга. Примеры ниже:
👍 2
20:15
Стинг / Shape of My Heart (фрагм.)
20:17
Генерация weights - En,En,Ru,Ru,Ru

Уже желания разумны,
уже порывам счет ведет
рассудок хладный. Воли вето
ход страсти прежний не дает...
Звезда взошла, когда острее,
когда чувствительней была,
оценка Веры, Долга, роли,
той... (надо было спеть на русском)
20:21
Генерация Suno на основе фрагмента от weights
20:27
Конечно, weights - не такой специализированный ресурс, как Suno, но он и др. показывают, что ИИ-технологии становятся все более доступными.
1
5 November 2024
AH
20:32
RVC (замена тембра вокалиста) - альтернативный (тому, что у меня в статье) способ получить свой голос в Suno/Udio. Это и раньше было известно (link, link), но теперь выполнить стало проще*. Процедура:

1. Записываем свой голос.
2. Собираем dataset (DS).
3. Создаем модель.
4. В сгенерированной песне разделяем Vocal и Instrumental.
5. Заменяем тембр в вокальном треке на свой.
6. Собираем "свой" Vocal с музыкой... Voila!

Модель (если удачная) используется многократно, т.ч. хлопоты с пп. 1,2,3 - разовые. Конечно, можно сделать модели с разным характером/манерой.

* я рассматриваю упрощенную схему, причем, нигде не придется создавать платные аккаунты.
3 🔥 2
20:43
ПОЯСНЕНИЯ по каждому пункту:
1. Что надо записать: link, link . Можно и на телефон. Как правильно записывать: link, link .
2. Как собрать DS: link, link. Без программы (DAW) сложно обойтись, Audacity хватит.
3. Идем на weights, грузим DS ... ждем ~15 мин. скачиваем модель (zip, в котором 3 файла).
4. Разделяем Vocal и Instrumental на mvsep, bandlab, vocalremover или еще где.
5. Загружаем Vocal (исходный) и свою модель на kits ai и заменяем тембр. На бесплатном скачать нельзя, но! Используем anyrec io - включаем на проигрывание и пишем (лучше громкости выставить максимальные и отключить др. источники).
6. Собираем "свой" Vocal с музыкой в DAW (Audacity хватит).
--------
Постоянно спрашивают об Udio. Уже отвечал, что пробовал лишь немного. Вот, чтобы пройти эту схему сгенерил фрагменты в Udio (панк не мое, но забавно) и в Suno. Мне показалось, что голос в Udio чище, а произношение на русском хуже, чем в Suno. Правда, у Suno почти все голоса слегка хоровые, ансамблевые, а это для RVC не хорошо (перевод в mono после split чуть помогает) .
2 👍 1
20:51
Вначале Udio, с 0:43 - мой голос (RVC)
20:52
Вначале Suno, с 0:32 - мой голос (RVC)
7 November 2024
AH
13:48
Мастеринг!

Это сложно, это искусство, этому надо учиться ... как обычно, зависит все больше от человека, чем от инструмента, которым он пользуется. Правда, ИИ и здесь меняет ситуацию. Но, по-порядку. Сгенерированные треки (Suno, Udio, Mubert и др.) обычно не отмастеренные - т.е. не соответствующие техническим требованиям. Если такой трек поставить на радио, он выпадет по звучанию - прозвучит тише и блекло.

1. Я использую Reaper и цепочку плагинов Waves. Если это Pop/Rock/EDM, а не BigBand 1940-х, то 5 мин. на мастеринг достаточно (смотрю RMS и АЧХ).

2. Если вы готовы осваивать DAW или есть минимальный опыт, то можно применить Audacity (он free) - там есть контроль RMS и анализ спектра (АЧХ). Самая простая схема:
а) Нормализовать до -0.1dB
б) Поджать Limiter'ом на 4...8dB, так чтобы RMS был в пределах -9...-12dB .
Возможно и АЧХ требует правки. На борту (ver.3.7.0) штатного параметрического EQ нет - я нашел приличный и free.

3. Теперь ИИ: можно просто отмастерить музыку онлайн (free), например, на BandLab.
7
13:53
Я закинул на Bandlab трек от Suno (с RMS -17...-18dB, mp3 192kbps), вернул RMS -11dB (wav, 16/44,1). Кстати, отдавать во вне mp3 хуже 256kbps, не очень хорошо - сконвертировать можно онлайн, например, здесь.

Ну, а АЧХ могла бы быть по-ровнее, хотя в целом - УДОБНО!
👍 2
8 November 2024
AH
18:03
Замена тембра снова.

Тестирую разные сервисы генерации ... вот на media io наткнулся на создание каверов. Там набор голосов, включая Kanye West, Snoop Dogg, Rihanna, Billie Eilish (полагаю по соглашению). Свою голосовую модель подгрузить, похоже, нельзя (bot в support мой вопрос не понял). Но, можно в своем треке (или с YouTube) поменять тембр. Еще делает анимацию лица - можно загрузить фото. Я спел фрагмент "Не для меня ..." (Н.Девитте,А.Молчанов) и заменил свой тембр на 3 голоса (с funny image) из раздела Public Figure. Насколько они достоверны - лучше спрашивать у носителей языка, да и песню брать на английском. Хотя для RVC все-равно какой язык, если модель multilingual (точнее, хорошая).

На free аккаунте генерит/дает скачивать 15 сек, но если сильно надо, можно и из кусочков собрать - каждое видео склеено из 2-х. Работая с Suno/Udio, этот сервис может пригодится, когда генерация нравится, а тембр голоса нет.
🔥 1
18:04
Фрагмент с моим голосом
18:04
👍 1
18:05
18:05
10 November 2024
AH
22:17
Пересборка песни.

Планировал сделать описание по Audacity (хотя душа не лежала - free, но...). Каким минимальным набором real-time (on the fly) функций я пользуюсь в Reaper для пересборки песни, т.е. режем/склеиваем, без FX? См. табл... Решил найти что-то по-удобнее и нашел - BandLab Studio. Для начала лучше освоить пп.1-5, а потом пп. 6-9, если потребуются. При этом, это лишь ~10% от free функционала + все на русском. Да, там и FX достаточно.
22:19
Почему обычно нужна редакция? - Косяки в начале, конце, середине. Вот типовые операции:
* Сделать Fade (затухание) в конце, когда песня оборвана, или что-то лишнее.
* Вырезать лишний раз сыгранный Verse, Chorus.
* Повторить удачный Chorus (они часто у Suno разные).
* Вклеить в начало "вступление" из середины (например, инструм. Bridge).
* Растянуть фрагмент слегка, когда Suno слишком ускорил(о) композицию (п.7).
* Понизить/повысить тональность, когда отменяете сделанную Suno модуляцию или добавляете сами (п.8).
* Изменить баланс Voc/Instrum. или (высший пилотаж) слог, ударение в вокале. Но сначала нужно разделить Voc/Instrum.
🔥 2
22:21
Эту песню (Suno) я собирал из 3-4-х генераций и все пп. потребовались.
👍 2 👏 1
22:22
Процедура в Bandlab:
1. Определяем bpm (темп), например, здесь. Он будет целочисленным - но, хотя бы так, т.к. резать лучше по сетке. Ставим темп [1].
2. Даем название проекту [2] (можно продолжить работу в др. время).
3. Тащим свой трек на дорожку. Жмем три точки > Дублировать (будет 2 одинаковых) [3] - это нужно для Cross-fade [4]. Делаем один Solo [5].
4. Слушаем, режем, перетаскиваем Clip'ы. Fade'ы проще настраивать в нижней части - кн. Редактор.
5. Для перехода [4] из "клипа в клип", надо расположить их на разных дорожках. Время наложения разное - зависит от того, что нужно получить. Чтобы ритм не сбивался, следует смотреть на совпадение волны [6]. Для треков с ударными это сделать легче.
6. Редактировать лучше on the fly, т.е. проигрывая - для этого задать/включить петлю на этот участок [7].
22:30
На десерт.
7. Кн. .U. - включает/отключает "прилипание" Clip'а к сетке при смещении.
8. Чтобы изменить скорость (speed) Clip'а, включаем [8] и тащим за нач./конец.
9. Чтобы изменить тон (pitch) - прав. кн. на Clip'е > AutoStretch > ещё (+- полутон). Это удобнее делать on the fly.

Важное.
1. Делая реконструкцию песни, желательно не получить перегруз. Надо прокрутить на громких местах, стыках - обратить внимание на индикатор [9]. Убедиться, что он не покраснел в правой части и там после остановки не остались красные точки [10]. Если так, то стоит аккуратно уменьшить общий уровень [10] или одинаково уровни на треках, например, поставить -3dB (исходный­ 0dB).

2. Осторожно с изменением темпа проекта [1] - если треки уже поставлены, то это приведет к их растяжке или сжатию, если неверно ответить на вопрос в всплывающем окне - "изменить диапазоны аудио?".

Проект сохраняется автоматически. Чтобы скачать песню, надо нажать кн. Сохранить [11] > в всплывающем окне нажать на стрелку > на новой стр. кн. Скачать > и выбрать формат (wav, mp3).

P.S. Среди FX есть лимитер, но я не понял, есть ли возможность ставить его на весь Mix (Master track). В принципе, после сборки, отмастерить можно здесь же (уже упоминал). Вообще-то BandLab кажется очень приличным, удобным и развивающимся онлайн инструментом с широкими возможностями - см. YouTube канал.
🔥 3 2
14 November 2024
AH
16:43
Свой голос снова.

Провел еще один тест c Suno - спел* под минус и скормил в Upload Audio. Здесь кроме голоса еще 3 пойманных зайца: стиль, темп, тональность - все в целом сохраняется. Косяки - звук хуже, чем в исходнике, голос хоровой и порой морфированный, но... Привожу удачные, на мой взгляд, примеры. Все исходники ~60 сек. Примеры состоят из фрагментов в 18-20 сек - сначала нарезка из исходника, затем нарезки из генераций.

* 1,2,3 - как есть, 4,5 - оттьюнил, т.к. техникой опеваний не владею. Забавно, конечно слушать, вроде как "вот смотри, как надо петь", но ... нет ни времени, ни желания вокалом заниматься.

Не сработало, когда просто смешал с минусом голосовые сообщения из WhatsApp (как чисто речевой DS такое подходит). Генерация - голоса из Suno (М/Ж) - система, похоже, не нашла логики/единства в музыке и речи.

В Style ничего не вводил, тексты в примерах - генерация Suno.

Другие способы - а) свой речевой DS link, link. б) спеть мелодию link, link. в) использовать RVC link, link.
🔥 1
16:44
DS ~60sec. No Autotune. Фрагм. по 18 сек.: исходн., Ru,Ru,En,En. Стиль принят и развит.
16:44
DS ~60sec. No Autotune. Большая компрессия вокала. Фрагм. по 18 сек.: исходн., Ru,Ru,En,En. Стиль принят и развит.
16:45
DS ~60sec. No Autotune. Слабая компрессия вокала. Фрагм. по 18 сек.: исходн., Ru,Ru,En,En. Стиль принят и развит.
16:46
DS ~60sec. Autotune. No Drums/Perc. Фрагм. по 20 сек.: исходн., Ru,Ru (Дудук + голос = плохая комбинация). Система не приняла стиль исходника.
16:47
DS ~60sec. Autotune. Bass, Drums/Perc. Фрагм. по 20 сек.: исходн., Ru,Ru. Стиль принят лишь частично. Местами не держит темп.
16:49
Выводы.
1. Минус нужен максимально чистый и не сильно сжатый, т.ч. из ИИ Split (vocal remover) не самый лучший вариант.

2. То, как спето (мелодия, ритмика), система учтет при генерации. Оригинальную мелодию и слова пропевать не обязательно (это даже вредно - вдруг не пропустит по Copyright). Да и точно в ноты попадать нет особой задачи. Правда, свой диапазон и подачу (норм, крик, придых) лучше показать.

3. Нежелательно наличие в минусе параллельно вашему голосу другого вокала или мелодий, близких по тембру (духовые, струнные).

4. Если система не принимает стиль исходника, то применяет свой.
🔥 2
16 November 2024
AH
21:07
21:08
Один из подписчиков (Борис), прислал два примера и вернул к теме анимации лица и синхронизации губ. С каждым днем эта техника все совершеннее.
🔥 1
21:10
... 14 лет назад в свободное время мы в команде создали муз. iPhone приложение iPuffer - тогда это было почти новаторски... Сейчас распознавание лица, глаз, рта уверенно делает ИИ 😄
21:11
... в 2020-м я собрал мультик к песне "Инициатор", используя CrazyTalk Animator (Lip Sync к готовым персонажам).
🔥 1
21:17
Анимировать лицо можно в Vidnoz, Haiper, Hedra. Мне кажется, скармливать все-таки лучше только голос, хотя что-то работает и с песней. Но просто анимации портрета для песни маловато, желательно изменение позы. И теперь, с ИИ, это тоже работает.

Много мест, где можно сгенерить/трансформировать по prompt'у хорошую картинку (link, link и др.).

А вот на Haiper можно не только оживить одну, но и сделать морфинг (движение): от 1-й ко 2-й, или 1 -> 2 ->3.
21:18
Т.е. можно взять несколько поз, сгенерить переходы (A-B-C, D-E-F, B-E) и получить (если применить также реверс, zoom и др.) много вариантов.
21:19
Вот первый опыт, пока без вокала (монтаж в Vegas'е).
🔥 2
21:21
Беда тут в том, что нет гарантии, что внося в prompt изменения типа "смотрит влево", "смотрит вправо" не изменится лицо, одежда или предметы. Но этот подход, кажется, будет хорошо работать с реальным человеком (сделать фотосессию). А в целом, конечно, поющие портреты уже вполне можно делать.
👍 1
21 November 2024
AH
11:55
В каком жанре песня (Music Genre Classification) ?

Вопрос возникает, когда надо вбить Style (prompt) в сервисе генерации. Проще указать на известную песню, но система не принимает prompt в таком виде, как Wind Of Change / Scorpions. ИИ генераторы не любят такие задания, т.к. есть вероятность сгенерировать исходник, т.е. то, на чем нейронка обучалась, особенно, если и структура текста близка. Пояснение термина жанр и сложности задания стиля я достаточно подробно разбирал в статье.

Как же получить не только конкретный жанр, но и стиль аранжировки? После множества экспериментов с Suno я остаюсь приверженцем использования режима Upload Audio. Системе скармливается 60 сек. реальной композиции (DS) ... и новые треки в этом стиле можно генерить вообще без задания prompt'а. Есть сложности с "пропуском" DS в Suno из-за Copyright, но в целом, они обходимы (link).
1 🔥 1
11:56
Нарезка из генерации на основе DS. Максимально близко к стилю аранжировки, исключая некоторые особенности в гармонии - скорее всего из-за того, что в DS они не попали. Хотя, Suno и от себя многое добавляет.
👍 1
12:01
1. RYM - громадная база артистов, альбомов, песен, обзоров. Ищите исполнителя, песню и смотрите описание альбома или песни. Например, для Breezin/ G.Benson жанры: Smooth Jazz, Jazz-Funk, Soul Jazz, Jazz Pop, а описания: lush, warm, soft, soothing, summer, melodic, uplifting, mellow, peaceful, rhythmic, male vocalist, happy, romantic, love. Конечно, под такой prompt подойдут тысячи композиций, но уже что-то.

2. Discogs - тоже база. Для альбома Scorpions – Crazy World (1990) указаны - Genre: Rock, Pop, а Style: Hard Rock, Arena Rock, Ballad, Pop Rock.

3. Сhosic на это же выдает жанры: Rock, Hard rock, German rock, German metal...

Есть сервисы, где жанр/стиль определяет ИИ.

4. Submithub - работает с песнями, которые на SoundCloud, Disco, YouTube, Spotify. Я проверил 3 песни со своего канала - кратко, но информативно. Сервис интересен еще тем, что его основная задача - получать отзывы кураторов на загруженные треки (что-то вроде фокус-группы).

5. Music Tagging - работает по линкам SoundCloud, хотя можно загрузить свой(!) файл. Серьезный сервис - выдает Genre, Sub-genres, Energy, Mood (пропорции), Emotion, Instruments, качество звука, гендер, был ли Autotune, тональность, bpm, для какой сферы подходит.

6. Cyanite - по линкам YouTube или произвольный(!) файл. Ну, тут анализ с графиками, если не к диссертации, то к выпускной работе колледжа точно. Сделал пару треков, для одного (Странная девушка v2.1) результат в pdf.
🔥 1
AH
21:39
7. Tags - AI Music Prompt Generator - приложение для смартфона. 2 режима: а) задать Genre* + Исполнитель/Название песни, б) задать Genre* + описание. На выходе достаточно ёмкий перечень, типа ...[melodic vocals] [catchy hooks] [synthesizers] [electronic beats] [harmonies] [pop ballad] [uplifting] [smooth bassline] [rhythmic patterns] [acoustic guitar] [clean production].., который придется проверить и сократить.

* Жанр в очень общем виде, типа Pop, Rock

Есть удобная карта жанров с примерами и описанием у Yandex'а.

Лет 10 назад я натыкался на сервис (Англия, Ирландия .. ?), который определял стиль композиции и позиционировал ее в пространстве жанров и времени. Сочинил, скажем, в 2012-м, загрузил, а она оказывается между pop и disco и в 1986-м 😃.
👍 2 🔥 1
22 November 2024
AH
16:36
Suno франшиза!

Пару недель как хотел написать в какую-нибудь IT контору, могут ли они стать посредником, т.к. платить за рубеж не очень удобно ... а тут вот оно - GPTunnel ! Правда, функционал ограничен - нет Upload Audio, Extend и др. опций.

Cгенерил 2 песни (оплачивать можно по трекам - 12 р/ шт.), задал вопрос, что с тарифом, какая версия, что с функционалом? Ответ: Premier, v3.5 (а теперь и v4, хотя ее народ ругает), по функционалу - будут расширять. По копирайту - "в пункте 8.2.6 нашей оферты сказано, что мы не притязаем на контент, созданный пользователями, и они могут использовать его по своему усмотрению". Это не совсем то, что у Suno, т.ч. надо уточнять, но самое главное - что нужно стриминговым сервисам (прокатчикам). По интерфейсу не все идеально/удобно, но ... все совершенствуется 😃
🔥 2
24 November 2024
AH
20:12
Suno: за кулисами...

"Если музыка ИИ так успешна после 1-2 лет разработки, представьте, насколько она может быть хороша через 5 лет" - Stephanie Palazzolo

Сделал перевод (Google + правка) статьи от 24 мая 2024. Не самая свежая информация, особенно, учитывая скорость изменений в сфере ИИ. Однако, она дает некоторое представление о том, что в ней происходит.
👍 1
20:12
Первая часть касается Suno/Udio, вторая - копирования голоса Скарлетт Йоханссон.
👍 3
26 November 2024
AH
14:53
Suno... похожести и не (Similarities).

Снова получил вопрос: "почему (у Suno) получаются разные аранжировки при одном Style/prompt и как правильно задавать стиль?" . Мне казалось, что не раз поделился своими догадками (link, link, link), но, поскольку вопрос остается актуальным, можно к нему вернуться.

Есть два способа задания стиля. Я думаю, каждый, кто сам проверит оба, получит ответ, точнее - прочувствует, как работает система.

Вот аналогия - стиль художника. Если мы заказываем одному нарисовать 10-ть картин, они будут разные, но похожие по стилю. А если 10-ть у разных художников на одну тему, то они по стилю будут непохожие.
14:55
Первый способ. Вбиваем, например, "Latin Jazz, Bossa nova, Male vocals" в стиль, подгружаем свой текст. Затем, ничего не меняя, генерим 10 треков (дневная норма на Free тарифе). Что в итоге? Получаем 10 разных боссанов (а иногда, и не совсем боссановы). Почему так происходит? - выбраны разные модели (художники).

К вариативности приводят 3 момента (догадки):

1) В базе Suno модели, созданные из реальных песен. При генерации выбирается модель, соответствующая Style и генерится похожий на модель трек (Similarities).

2) Генерация вокального трека также вариативна.

3) Suno по своему усмотрению подмешивает к одной модели другую (зависит от команд в Style или их отсутствия).

Второй способ. Используем DS (Dataset) - свой трек в Upload Audio - создается модель. Ничего не вбиваем в Style, подгружаем свой текст ... генерим несколько треков, и ... получаем разные, но похожие песни. Я сделал нарезку из треков песни "Все хотят снимать кино v1A" на основе одного исходника.
👍 1
14:57
11 вариантов строки "Все хотят снимать кино - не вопрос"
14:59
11 вариантов припева. При этом, даже в одной песне припевы немного отличаются.
👍 1
15:00
Вокальные треки: и ритмика, и мелодии меняются, но стиль сохранен и развит. Причем, если ритмика и похожа, то ступени в мелодии разные.
👍 1
15:01
Мне кажется, что DS с Upload Audio - это рабочий способ сделать песню в нужном стиле. Почти как в студии (скорее круче) - записать несколько дублей и скомпоновать итоговую из лучших частей.
👍 1
15:02
Из этого же исходника трек от Udio (припев), спасибо Борису - у меня везде Free акк., а Upload Audio в Udio только на платных тарифах.
👍 1
15:03
А вот в манере известных певцов. Да, это, наверное, не очень правильно. Но ради демонстрации сути технологии, думаю, позволительно. К слову, теперь фанаты могут записывать персональные альбомы своих кумиров ... Хотя, я бы не стал... А с другой стороны, это ведь и для самого кумира плюс, если текст допустимый.
👍 1
29 November 2024
AH
17:26
Suno: дуэт? - мутная тема...

Не было у самого такой задачи, когда спросили - попробовал, еще в августе (link, link). В Suno-wiki читаю: "Возможны ли дуэты? и да, и нет. Дуэты иногда возникают спонтанно... голоса Suno будут... часто неправильного пола... Добавьте Duet в Style..." В принципе, дуэты ЕСТЬ, но управлять ими НЕЛЬЗЯ.

Когда DistGuitar меняется на Synth/Sax еще куда не шло, но когда М поёт Ж текст и наоборот, то это...? Самый яркий пример непредсказуемости генерации! Два образа к попыткам освоить систему (лотерея):

а) каждый день просыпаешься в новой обстановке ... планировка/мебель,
б) каждое следующее занятие в автошколе на другом виде транспорта + незнакомые знаки на дороге.
🔥 2
17:28
Посмотрел, что делают другие - вбил в Search "Duet". Есть удачные варианты, есть не очень, есть даже ироничная песенка с текстом, "как получить дуэт"...

Написал шуточный текст и начал тестить ... Включал в стиль "Duet", пробовал в Lyrics [Female Vocals], [Female Singer], [Female] и, соответственно, [Male...].

Казалось бы, - нужно сделать много версий при одних и тех же Style/Lyrics, но система же выбирает разные модели/аранжировки и из них не соберешь песню.
👍 1
17:31
Голоса Suno, ошибки с Verse2, невнятный дуэт в Chorus
👍 1
17:31
Голоса Suno, ошибки с Verse1, дуэт уже в Verse1...
👍 1
17:32
Голоса Suno, два женских ...
👍 1
17:33
Хорошо, а если генерить на свой DS, где нет никакого намека на вокал? Попробовал - все-равно рэндом.
👍 1
17:34
Мой DS, голоса Suno, ошибки с Verse1 (2-й ОК), в Chorus мужской...
👍 1
17:39
Тогда я решил генерить один гендер (М или Ж), а потом менять в нужных местах. Тут тоже есть проблемы.

Первая - тон. М и Ж голоса в среднем отличаются на 6-9 полутонов, а не на октаву (12). Т.е. если исходный Ж и высокий, то М на -12 будет ОК. А если исходный Ж средний, то М с -12 будет очень низким, а в той же тесситуре, что и Ж - слишком высоким.

Вторая - спектр. Есть два способа изменить регистр и тембр - PitchShift и RVC.

* PitchShift - смещаем тон (-12) и корректируем спектр в противоположном направлении для натуральности (обычно +6...+9 полутонов).

* RVC (замена тембра) + смещение тона дают более правдоподобный вариант.

Но, в Suno голоса изначально "хоровые, ансамблевые", при разделении (Split /vocalremover) качество треков отвратительное и оба приема дают, если честно, плохой результат. Ни PitchShift, ни RVC не справляются с таким грязным материалом. Эту песенку, сочиненную для тестирования, я даже решил назвать "Дуэт пациентов фониатра-логопеда".
🔥 5
17:44
Для PitchShift в Reaper использовал ReaPitch(Cockos) - он на борту, в Audacity можно применить MAutoPitch (Free). RVC делал в kits.ai , для М голоса использовал свою (AU) модель (чтобы не рисковать с акцентом), для Ж - Female Energetic Spanish (FES). В каждом примере 2 фрагмента (PitchShift и RVC).
👍 1
17:48
Мой DS (инструм.), Ж голос Suno, М вначале PitchShift -12(тон) +7(спектр), затем RVC (AU)
👍 1
17:53
Мой DS (инструм.), М голос Suno, Ж вначале PitchShift +12(тон) -7(спектр), затем RVC (FES)
👍 1
17:55
Ж голос Suno, М вначале PitchShift -12(тон) +7(спектр), затем RVC (AU)
👍 1
17:56
М голос Suno, Ж в начале PitchShift +12(тон) -8(спектр), затем RVC (FES)
👍 1
17:58
Ж голос Suno, М вначале PitchShift -12(тон) +7(спектр), затем RVC (AU)
👍 1
18:10
Кстати, если генерить отдельно М и Ж на основе своего DS (инструментального), то вариативность будет меньше (темп, стиль, тональность - те же) и шансов собрать песню больше. Правда, припевы будут разные, но в них уже легче применять PitchShift и RVC... Полные версии этих песен выложил на сайте.
👍 1
2 December 2024
AH
22:01
Ну что, теперь "курсовые" могут скачивать и студенты консерваторий и муз-колледжей... И "скрипач", похоже, уже почти не нужен... Экономим время, т.ч. я ТЕЗИСНО.

Уже после первого знакомства с Suno меня поражало качество нот (не звук) - все правильно... Я занимался генерацией и понимаю, как сложно сделать её без ошибок в нотах, с натуральным звуком + исполнительскими нюансами... Общаюсь с музыкантами и у нас, и за рубежом. Они разделились на 3 группы:

1. В джазе/классике - спокойны, особенно джазисты (т.к. генерят на каждом концерте десятки мелодий /аранжировок).

2. Хорошие авторы-ремесленники (сонграйтеры, исполнители, аранжировщики) - сочинять, конкурировать и раньше было не просто... Очень напряглись.

3. Способные адаптироваться, для кого музыка больше бизнес... Уже зарабатывают с помощью ИИ.
🔥 5
22:05
Борцам с прогрессом (за истинное), которые твердили "никогда ИИ не сможет ... " могу только посочувствовать. Я давно говорил - еще в 1984 г. 500 экспертов не смогли отличить звучание цифрового рояля от натурального - "Дифференциальные пороги восприятия" (психоакустика, link)...

Хороший музыкант, к слову, "слышит музыку" (даже оркестровую!), глядя в ноты... Ну, как мы видим образ, читая книгу... и вот интересно, она какая - натуральная/ виртуальная (типа ИИ)?

Как-то синхронно с разных сторон пришли новости:

а) приходит в студию (или по сети) заказчик, генерят песню, раздают партии живым музыкантам (или забивают в DAW чистым звуком), чуть меняют, записывают, сводят и ... вуаля, композитор/ аранжировщик (и все чаще вокалист) не нужен! (так за рубежом и у нас уже). Suno/Udio, похоже, нет большого дела до того, как используют результат (да и кто теперь при таких объемах все отследит?)

б) знакомый пишет - потерял 100 т.руб. за мес. - 2 клиента сгенерили на Suno, вместо того, чтобы заплатить за текст, мелодию, аранжировку, запись, сведение и т.п.

в) у меня на 3 песни попросили разрешение спеть (забавно, когда она генерится за 30 сек.)

В общем, потеряют многие и многие (намного больше) найдут.
🔥 4 🤔 1
22:12
Факты, слегка проверенные, хотя важнее тренд. (СС - стриминговые сервисы).

Suno ~10 млн треков/мес, Udio ~20 млн треков/мес (S&P Digital, Ольга Ким, 12-й СПб юридический форум, июнь 2024).

~33 млн RVC треков, ~1,3 млн Voice Models, ~5,7 млн юзеров (kits.ai, на декабрь 2024).

Из 184 млн треков на СС 86% игрались всего 1-10 раз, а 46 млн - ни разу. Это то, что создано людьми. (Данные комп. Luminate, 2023).

"...к 2030 авторов будет 1 млрд.", как бы реальных (Куоком Мэн Ру, гендиректор BandLab.) + те, кто юзает ИИ (В 2021 у BandLab было 30 млн пользователей).

...Йохан Рёр (Швеция) сделал 650 ников и заработал на СС ~ $3 млн. Его 2700 треков были прослушаны 15 млрд раз, это больше, чем у Metallica, Бритни Спирс или ABBA. (The Guardian, март 2024).
😁 2
22:15
... виртуальные ИИ кавер-группы, типа Jet Fuel & Ginger Ales, создают каверы популярных песен, которые появляются рядом с реальными исполнителями, собирая млн прослушиваний и принося деньги на СС... у таких групп нет присутствия в сети до 2023 г., обложки - случайные фото со стоков ... + а некоторые артисты жалуются, что "... не исполняли эти песни" ... (reddit.com, 2024).

===============

Живые музыканты в большинстве проиграют ИИ. Сколько хитов у автора, группы? А у ИИ они, авторы/хиты (как образец), все сразу. Да, а слушателю все-равно, как было создано, если ему нравится.

Лет через 5 все поменяется, СС пойдут (и уже идут, например, Spotify) за клиентами/ доходом... Каждый будет слушать, что захочет, т.е. персональное - что попросил ИИ сочинить. Типа, пусть Бритни поет на русском целый день под гитару, ... нет, пусть Стинг.

Ну, и сериалы будем заказывать*. Решив на семейном совете - кто в ролях, о чём, ... вроде, пусть Шварценеггер (молодой) со Шреком исследуют Аркаим или Тунгусский метеорит. Да, и чтобы с ними какая-то из наших молодых, симпатичных, например, Ангелина Стречина.

* Причем, мы будем начинать просмотр серии, когда её окончание еще "не снято". Также, как в Suno - проигрывание разрешено, когда песня еще "не дорисована", т.е. полностью еще не существует.
🔥 3 😱 2 1
6 December 2024
AH
19:41
"Инкрустация" вокала!

В студийной работе такое случается - вокалист уже ушел, а где-то окончание проглочено, где-то мимо ритма или ударение не там ... А вот у Suno/Udio косяки с ударением почти норма, т.ч. порой "резать и клеить" - единственный способ, как спасти вокальный трек. Тем более, что система не перепевает то же самое, а генерит другое.

Сгенерил несколько треков на один и тот же текст. Было не там ударение в слове будет [#1], а еще смущала гласная в пропущу [#2] (т.к. произносится А, хотя пишется О). Причем, в медленных/ незагруженных версиях это все было заметнее. Я подправил текст (.. бУдет ... прапущу...) для новых версий, но одну "кривую" решил исправить.
👍 3
19:42
Фрагменты со словом будет [#1]
👍 1
19:45
Процедура.

1. Определяем темп.

2. В DAW задаем темп и ставим трек с учетом сетки, чтобы резать и ориентироваться по сетке, а не только на слух.

3. Находим место с косяком, вырезаем фрагмент* для разделения (Instruments/Vocal).

4. Ставим Instruments и Vocal на дорожки в DAW, аккуратно режем, двигаем, сжимаем/ растягиваем, корректируем амплитуду.

* можно и всю песню разделить, а потом собрать, но стоит ли ухудшать то, что по звуку и так несовершенно?

Лучший способ сделать слог ударным - поставить его на сильную (или относительно сильную) долю. Также может помочь его усиление в сравнении с окружением, иногда его стоит растянуть. На практике часто приходится применять все эти приёмы сразу.

Крайне важны fade'ы - как именно элементы стыкуются, как один звук "перетекает" в другой. Здесь миллисекунды играют роль, но дело не в реальных величинах, а в слуховой оценке - нет нужды искать данные по временным параметрам в фонемах.
👍 1
19:49
Т.е. проигрываем по петле, двигаем, подгоняем, слушаем, добиваемся более правильного пропевания.
👍 5
19:50
Фрагменты. [#1] со словом будет и [#2] пропущу. Сначала исходный, потом исправленный.
👍 1
19:53
Для [#1] пришлось двигать, менять громкость, длительности. Для [#2] вырезал А из Я (йа) - она на удачу и по тону была такой же. Выложил полную, подправленную версию песни - Год новый станет... v3а. Ошибка с ударением - на 0:24, гласной - на 1:44.
👍 1
9 December 2024
AH
10:13
Собрал клип - все компоненты от ИИ.

Конечно, это детский сад в сравнении с тем, что народ делает - нужны платные аккаунты и по-серьезнее отношение, но ...

1. Текст, музыка, голос - Suno (от меня только тема + Style).

2. Взял реальное фото (портрет), сгенерил портрет своего персонажа (link) в cartoon стиле [1].

3. Пытался к портрету "дорисовать" тело - не вышло, может не нашел нужный prompt.

4. Сгенерил тело [3] (link), в PhotoShop'е приклеил голову [4]. Сделал 3 картинки-заготовки - крупный (исходный фон), средний (ChromaKey) и общий (ChromaKey) планы.

5. Сделал анимацию (link) лица (крупный/средний планы). Причем, косички пришлось обрезать [2], т.к. при анимации они оставались неподвижными.
2 🔥 1
10:17
6. Сначала сделал анимацию тела (танец) в link, link, link. Танцевали классно, но у них от начала к концу клипа (за 4 сек) лицо от моей исходной картинки превращалось в лицо девушки из юго-восточной Азии + зеленый фон нарушался. Таких я отрезал, т.е. выше груди не показывал.

Здесь пригодился бы, похоже, этот подход для создания новых поз.

Потом в link удалось сгенерировать танцы с сохранением исходного образа и фона.
😁 2 👍 1
10:19
10:21
Размеры* исходных картинок - 1024х1024 (крупный), 410х410 (средний), 1024х1024 (общий) планы.

Видео* - 512х512/29fps (крупный, средний). Для общего плана - 832x1216/30fps, 512x512/16fps и 768x1280/24fps (последний на переднем плане - те, что с головой).

* сервисы отдают результат в разных форматах.

Вырезка ChromaKey не очень чистая, т.к. разрешение невелико.

Монтаж в VegasPro 13. Итоговое видео - 512х768/10fps ради уменьшения веса.

В общем, я думаю, вполне реально делать музыкальные клипы с "участием" любого человека (или мульт-героя) - нужны снимки + образцы голоса. Скорее всего, через пару лет или раньше, всё будет в смартфоне и даже background не придется подбирать, как у меня - только указать в prompt'е, в какой манере нужно видео. Ну, и это реальный способ создать своего виртуального артиста, причем, любому и мощности DreamWorks не нужны.
👍 4
10:25
👍 7
12 December 2024
AH
00:11
Suno: рестайлинг / ре-аранжировка.

Уже после публикации большой статьи ( "Suno как аранжировщик" ) и нескольких приложений (link, link, link, link, link) с примерами и выводами, где, как мне казалось, я многое пояснил, получил несколько вопросов вроде " ... у меня есть песни, может ли Suno сделать аранжировку?"...

Авторы приходят к аранжировщику с разной готовностью/ полнотой материала, поэтому переспрашивал: "Уже готовые, это что: Текст? Мелодия (голосом, инструментом, ноты)? Гармония к мелодии? Темп, тип ритма, примерный стиль? Прототип (т.е. на что должно быть похоже)?" От того, что присутствует, зависит как и насколько удачно может быть использован(о) Suno.

Здесь хочу показать результат обращения на прошлой неделе. Да, действительно, с Suno можно сделать ре-аранжировку готовой песни, получить другой характер, "вдохнуть" новую жизнь (как бы парадоксально это не выглядело).
👍 3 🔥 1
00:19
Готовая песня "Знаки" * - вок. М.Вебер, муз. А.Блаер, сл. А.Шевцов, аранж. "Familia Records". Определил темп - 112 bpm. Разделил Voc/Instrum, собрал DS*. Ритмику задал 1/8-ми на 1-й и 2-й четвертях каждого такта каким-то электро Hi-Hat. Просто поставил первое, что попалось на глаза, лучше было бы 1/4-ми на весь такт.

Куплет поместил целиком, припев - половину (он повторяющийся) и уложился в 52 сек. Тут повезло - если важно максимально сохранить мелодию, то "квадраты" (4,8,12,16), логику в гармонии (даже условной) желательно не нарушать. О гармонии я в данном эксперименте не заботился, хотя её можно было бы прописать см. link, link, link. И, честно говоря, мне было интересно, какие аккорды выберет ИИ. К слову, в студии ведь аранжировщик тоже часто предлагает свой вариант.

Upload Audio этот DS принял без претензий по Copyright. Я решил сделать 3 генерации* (6 треков) на полный текст песни и, не очень то задумываясь над Style, попробовал:

Chillwave, relax, female vocals, sad, saxophone solo, melismatic singer, atmosphere

Electropop, female vocals, sad, synthesizer solo, power chorus, emotional singer

Latin Jazz, female vocals, sad, trumpet solo, emotional singer

* ВСЕ представленные здесь треки по согласованию с автором - нарезки, т.е. часть исходной песни, часть DS, часть генерации. Хотя, в полных генерациях (как обычно у Suno) есть интересные моменты - развитие, проигрыши и т.п.
👍 5 🔥 2
00:21
Исходная версия (фрагм.)
👏 2
00:22
DS (фрагм.)
2
00:23
v1a Chillwave ... (фрагм.)
🔥 2
13 December 2024
AH
00:43
v1b Chillwave ... (фрагм.)
👏 3
00:43
v2a Electropop ... (фрагм.)
3
00:43
v2b Electropop ... (фрагм.)
3
00:44
v3a Latin Jazz ... (фрагм.)
3 👍 1
00:44
v3b Latin Jazz ... (фрагм.)
5
00:45
Да, мелодия местами немного изменилась, да, гармония чуть другая, но это ведь та же самая песня! Многие исполнители, берясь за известную песню, принципиально не используют существующую аранжировку...

На весь эксперимент (с момента, как мне прислали исходный трек и текст, до готовых ре-аранжировок) ушло 35 мин... С Suno всегда так - генерация быстрее, чем прослушивание... Обычно я генерю дневную норму (10 треков) - это примерно 30-40 мин. звучания, а прослушиваю каждый трек целиком уже на прогулке...

P.S. По сборке DS я как-нибудь подготовлю отдельный пост.
🔥 6 1 👍 1
16 December 2024
AH
11:33
Suno: соло? Импровизация! ...

Предыстория: меня интересовало можно ли улучшить качество звукового файла (по аналогии, как ИИ для графики делает upscale, ретушь, колоризацию). Тут два применения: а) освежать старые записи, б) менять дешевый звук на дорогой (не меняя нот!). Ну, т.е. отрендерил MIDI файл с недорогим GM синт., обработал ИИ алгоритмом и получил новую фонограмму, где все инструменты высокого качества + соответствующие исполнительские нюансы (ИН), чего в MIDI как правило нет. Да и Suno бы пригодилось чистить треки от шума... Задавал вопрос всем, кого имеет смысл об этом спрашивать - пока ответа не получил.

То, что Suno в режиме Upload Audio может из мелодии генерить полную аранжировку, было понятно давно (link, link). Создание соло/ импровизации на основе заданной мелодии - немного другая тема. Положительный итог её проработки в следующем: Suno может делать из дешевого звука дорогой при замене тембра (ну, как всегда у Suno, не очень чистый). Сделал несколько тестов.
👍 6
11:36
1. DS: мелодия фортепиано (GM, Korg Triton) + Hi-Hat по 1/4 + BassDrum на 1-ю долю (чтобы система понимала где тактовая черта), 112 bpm. Режим "Instrumental", в Style, соответственно, Sax... и т.д. Suno делает аранжировку отталкиваясь от темы. По факту недорогой тембр заменен на более качественный с ИН, свойственными инструменту. Если сразу записать мелодию недорогим синт. саксофоном, то с ним и будет генерация. А если дорогим синт., но без ИН, то и в генерации их не будет. Так что проще сыграть на синт. пианино и назначить тембр. Примеры: Key, Tempo Sono сохраняет, вначале трека DS.
👍 4
11:37
DS, фрагм. Style: "Saxophone solo"
3
11:38
DS, фрагм. Style: "Cello solo"
👍 1
11:39
DS, фрагм. Style: "Flute solo"
👍 2
11:39
DS, фрагм. Style: "Acoustic guitar solo"
👍 2
11:43
2. DS: реальный саксофон (Н.Панченко) из моей композиции с CD ("Место под солнцем", 2006). Suno сохраняет тембр, манеру из DS и развивает тему. Сгенерировать соло без др. инструментов не удалось даже в v4, где можно задать негативный prompt (Exclude Styles), вписав в него "Drums, Bass, Grandpiano, Percussions, Pads" (спасибо Олегу из СПб, я на Free акк. где v4 нет.) Примеры: Key, Tempo Sono сохраняет, вначале трека DS.
👍 3
11:44
DS, фрагм. Style: "Improvisation"
👍 2
11:44
DS, фрагм. Style: "Continuation of the original fragment, saxophone only"
👍 2
11:45
DS, фрагм. Style: "Saxophone solo improvisation"
👍 1
11:47
3. DS: записал что-то невнятное на мелодике/ гармонике (взял у внуков). Сделал 3 генерации со Styles: "Solo", "Improvisation", "Saxophone solo". В 1-й тембр сохранился, во 2-й появился Trumpet, в 3-й только в одном Sax. Пример: сначала DS, затем 6 фрагментов генераций.
👍 1
11:48
DS, фрагм. Style: "Solo" (1a, 1b), "Improvisation" (2a, 2b), "Saxophone solo" (3a, 3b)
👍 1
11:51
4. DS: сыграл пару тактов на старой гитаре с нейлоновыми струнами. В Style "Solo". Пример: сначала DS, затем целиком вариант генерации. С 0:26 по 0:48 Suno повторяет DS близко к оригиналу, затем другая тема при сохранении характера. Мне кажется, весьма удачно, только в реальной игре было бы намного больше скрипа/ FretNoise.
🔥 4 👍 1
11:52
DS, вся генерация, Style: "Solo"
👍 1
11:53
Если бы я собирал композицию, где требовались Intro, Bridge, Ending с конкретным инструментом, то:

а) тему играл бы на фоно и назначал тембр,
б) наверно, прописывал бы легкие Drums в нужном стиле, чтобы Suno генерил что-то похожее.

В общем годных генераций этим способом - 60-70%, что, мне кажется, хорошо.
👍 6
18 December 2024
AH
18:24
Suno v4 - печалька пока ... ужас.

Утро началось весело: пришло письмо из Suno support с предложением 10 free песен на v4 (я на free акк. с v3.5). А вверху был этот баннер ("Бесплатное де...мо"). Сгенерил 8 треков (все с Upload Audio) - результат немного странный ... Написал МакКинли (Voice Dataset Engineer / California) с вопросами - как ему кажется v4 и правильно ли я понял заголовок. Ответ:
🔥 5
18:26
1) ... некоторые из ремастеров v4, которые я пробовал, были интересными, но обычно в них что-то не так, или они недостаточно точно следуют prompt. В целом, большую часть времени много непредсказуемости... Было несколько редких случаев, когда все получалось чище, но это в основном из-за удачи и со специальным, строгим prompt.

2) ... ха-ха, это просто неформальный способ сказать: "Эй, ребята, бесплатные штуки!" В США люди часто используют такие термины довольно небрежно ... это не следует воспринимать буквально... они, вероятно, говорят это, чтобы привлечь внимание и заинтересовать людей.
👍 3 🤔 2 😁 1
18:33
Очень редко размещаю тут полные треки, ценя ваше время. Нарушу правило, чтобы не быть голословным. Да, звук стал чище, но:

а) там, где использовал свой речевой DS, голос уже меньше похож.

б) очень вольная манера как в аранжировке, так и в вокальном треке. В своей практике я встречал вокалистов, кот. в одной песне показывали всё, на что способны, хотя самой песне это вредило, т.е. на смысл они не обращали внимание. Тут вокал порой нестабилен даже в одной фразе - то соло, то группа, или смена гендера M/Ж... Да, еще иногда кажется, что гитарист (треки 1, 2) скачет по сцене - какой-то там косяк с панорамой.

в) уровень шумовой компоненты заметно возрастает к концу трека. Это и в v3.5 случалось, но не так явно.

г) система заметно меньше следует как заданному Style, так и DS в Upload Audio. Босса - не босса, регги - не регги, по крайней мере, не generic. Да и Latin Jazz в v3.5 явно конкретнее. Полагаю, где-то есть параметр "следовать образцу, %". Похоже, в v4 его значение меньше.

Одним словом, печалька. Конечно, 8 треков - очень мало, чтобы делать выводы (на v3.5 я сделал > 800 генераций). Но пока для меня музыка в v3.5 более правильная, хотя звук и не такой чистый.
👍 6
18:37
DS (мой речевой), Style: Latin jazz, guitar solo, melancholic
👍 3
18:38
DS (мой речевой), Style: Bossa nova, guitar solo, melancholic
👍 2
18:39
DS (мой речевой), Style: Reggae, Distortion guitar solo
👍 3 🔥 2
18:40
DS (instr + мой голос, как и в link), Style: пусто.
👍 3
21 December 2024
AH
11:46
Сведение/ мастеринг и ... "Голливудский свет".

В конце 80-х в Новосибирской консерватории проводились ССЭ (субъективно- статистические экспертизы) акустических систем (АС) Бердского радиозавода. Профессора слушали разные произведения и проставляли оценки, как самим новым АС, так и в сравнении с импортными... В один из дней ССЭ ко мне подошел Александр С., математик, ... послушав наш разговор, он сказал: "... если вам нужна отчетливость/ прозрачность, вам следует вносить искажения". Мы, молодые инженеры и в меру фанаты Hi-End'а, подумали, что это шутка, но (!) ... он оказался прав (наверное, читал зарубежные журналы, вроде AES).
2 👍 2 🥰 1
11:49
В начале 90-х если у вас в студии не было Exciter'а, то вы ... отстали от жизни и правильный танцевальный трек вы не запишете, точнее - звук у него будет "не фирменный". Exciter (возбудитель) выполнял две функции:

а) генерировал новые ВЧ-составляющие (3-8 kHz, собственно Exciter),

б) компрессировал басы.

В итоге в треке становился плотный бас и отчетливые верха ... Ныне эксайтер широко применяется в бытовой аудио-технике (особенно, недорогой), а также в средствах связи для повышения разборчивости речи.

Почему искусственные компоненты, добавляемые в сигнал эксайтером, не воспринимаются как искажения? Вся хитрость в том, что они являются гармониками, т.е. колебаниями, с частотами, кратными частоте сигнала - они как бы "могли быть" в нем. Почему тот же эффект нельзя получить просто усилением ВЧ области в эквалайзере? Если в EQ задрать верха, то мы получим перегруз на тарелках, шипящих согласных и т.п., а эксайтер равномерно добавляет ВЧ компоненты к звукам среднего/ верхнего диапазона.
👍 2 🔥 2
11:52
"Плотный бас и отчетливые верха" - это мастеринг!? Ну, можно и так сказать, но сначала о "Голливудском свете". Это техника освещения в фото/ кино-съемке, при которой герой в кадре виден отчетливо. Три важных момента: [a] фокус/ резкость на персонаже, [b] выделен контур, [c] размыт задник. При соблюдении этих приемов картинка правильно смотрится даже при низком разрешении и невысокой контрастности. Причина - наличие в нужных местах градиентов (по яркости, цвету, резкости).
👍 4
11:58
... где на черном фоне один из темно-синих кругов ...
12:02
Подобные аналогии можно найти и в "звуковой картине" муз. трека - "правильно сведенная/ отмастеренная фонограмма звучит хорошо на разной аппаратуре" - знакомо? К слову, применение эксайтера к вокальной дорожке субъективно прибавляет +3...+6 dB, т.е. голос становится "громче", без увеличения амплитуды - значит будет более отчетливым даже на фоне плотного муз. трека. (В среднем человек различает* минимальное изменение в 1 dB).

Студентам я пояснял этот эффект на примере картинки, где на черном фоне один из темно-синих кругов (№2) обведен мелом (добавленные ВЧ гармоники [b]). Т.е. не надо повышать яркость (громкость), а просто обвести контур. Ну, а размытие/ резкость ( [a], [c] ) это: аккомпанемент - дальше (ревер, легкий завал ВЧ), солист - ближе (меньше ревера).

Многие достигают нужного результата с помощью многополосного компрессора, а применение эксайтера считают неправильным из-за его принципа. Я в этой части остаюсь консерватором - использую эксайтер BBE Sonic Maximizer или Prosoniq mixCiter (конечно, в составе цепочки). Для всего Suno трека - всегда, для вокального - если пришлось делать split vocal/ instrum (когда баланс не тот, вокал подправить по слогам, второй голос / бэки, RVC, M/Ж поменять).

* кому интересно протестировать/ потренировать свой слух, могу посоветовать мои браузерные игры-тесты: "Проверка слуха", "Звукореж - волновые формы".
👍 4 🔥 4
28 December 2024
AH
22:10
Suno v3.5: акапелла (Новогодняя).

Знакомый из Канады (оперный певец и инженер) прислал шикарную акапеллу Тима Уорика и спросил: "А может твой ИИ так спеть?"... Треки с намеком на акапеллу у меня получались еще в первых опытах (вер. 2.0, 2.1. ... я тогда взял чужой prompt). Так что решил попробовать сделать что-то лирическое и праздничное (без инструментов!).

Использовал 6 разных DS (режим Upload Audio) и сгенерил 48 треков. 4 DS собрал из акапелл проф. муж. квартетов, 2 своих: один - пропел 4 строчки, другой - речевой. Из акапелл старался выбирать те, где встречается многоголосие (аккорды), а не только "педаль" или пропевание партии инструментального баса:

Tim Waurick / "Have Yourself a Merry Little Christmas"
Грузинский квартет / NoName
Stephan Carlson / "Never Know Your Love"
First Take квартет / "No One Sings Higher Than Me"
3
22:15
Выводы по Style.

1. No Style - все от текста и акапелла не гарантирована, даже если она в DS.

2. Если только Acapella, то привязка, похоже, к афро-американским церковным образцам - спиричуэлс, госпел, блюз.

3. Присутствие любого "вокального" термина (Male, Choir ...), кроме, кажется, Acapella, приводит к применению голоса по-умолчанию (из Suno модели), а не из DS.

4. Choir к муж. DS добавляет жен. голос, точнее - игнорирует исходный DS.

5. Команда Positive сразу переключает на что-то танцевальное.

6. Команды с отрицанием (как в генерациях v4): -Drums, -Bass, -Grandpiano, -Pads ничего не дают, т.е. инструменты появляются.

* в примерах везде фрагменты. В примерах 1,2,3,4 сначала DS.
22:17
DS: Tim Waurick, 18 сек*, затем 6 генераций по 30 сек.
👍 4
22:18
DS: Грузинский квартет, 18 сек*, затем 4 генерации по 30 сек.
22:19
DS: Stephan Carlson, 18 сек*, затем 4 генерации по 30 сек.
👍 1 👏 1
22:20
DS: First Take квартет, 17 сек*, затем 2 генерации по 30 сек.
22:21
4 генерации по 30 сек. (DS: спел 4 строчки).
22:21
4 генерации по 30 сек. (DS: мой речевой).
22:25
В целом исходный материал (DS) отражается на генерации (сохраняется), если не забивается др. моделью, согласно заданному стилю.

Получить именно то, что хотелось, не удалось, хотя интересных моментов много. Мне кажется, генерации с речевым DS ближе к желаемому. 3 полные песни выложил у себя с названием "... Чудеса? Пусть так!".

Еще. Музыканты прикладывали большие усилия, чтобы получить плотную и ровную пачку (как у Queen, например), а теперь у ИИ аккорды слишком идеальные, чтобы выглядело натуральным.
----------------- ----------------- -----------------
С наступающим НОВЫМ ГОДОМ! Настроения, самочувствия, всех благ!
👍 11 1
2 January 2025
AH
13:37
Suno: детский голос с гарантией.

С сентября 2024 г. провел много экспериментов (см. Дневник), пытаясь сделать "правильно", т.е. собирал dataset'ы (DS, наверное, более 40), как речевые, так и фрагменты песен. Легальных гендеров в Suno три: М, Ж и Vocaloid. Если удавалось "спрятать" детский голос в музыкальном DS, то он появлялся в генерации (возможно в плотном/ грязном треке Suno принимает его за женский), если нет - то система подставляла свой дефолтный Ж (или М). Речевые крайне редко срабатывали, с музыкой - чаще, но все-равно удачных генераций вряд ли больше 5%.

Пара авторов, сочиняющих для детей, снова спросили и я решил попробовать RVC. Наверное, кто-то так уже давно делает, может стоило сразу решать вопрос "в лоб", точнее "в обход"?... Генерим детскую песню сначала с Ж (или М), потом меняем тембр на детский, вуаля!? Да, схема рабочая, но есть нюансы.
👍 6
13:45
Нужна детская голосовая модель. Для DS я взял ~7 мин. детского голоса (мальчик 9 лет, речь, возгласы + пение мимо нот). Запись на телефон, местами с перегрузом, т.е. с точки зрения звукорежа - низкого качества*: немного почистил, срезал НЧ и ВЧ слегка, чуть компрессор, сохранил в моно. Да, и вырезал паузы в Audacity (1 функ., кот. пользуюсь). Модель тренировал в weights.

Замену тембра (RVC) по привычке делал в kits ai. На free акк. не все опции доступны, + голос выдает по умолчанию иногда с Delay/ Reverb, но для моих задач мне этого достаточно. Возможно есть и др. места, не знаю - развивается все стремительно. Да, поскольку скачать не дает, записываю с компа (link).

* рекомендации по записи голоса link, link.

Важные моменты.

1. Качество вокального трека. RVC не любит грязный, хоровой, с FX, многоголосие, переключение М/Ж, октавные призвуки - т.е. все то, что мешает детектировать тон (Pitch). К несчастью, именно всем этим и страдает вокал у Suno. Т.ч. для конвертации тембра лучше сразу выбирать генерации почище.

2. Вокальный диапазон. Желательно не выходить за детский, если исходный муж. не очень высокий, то можно вокал поднять на октаву. Иначе требуется смена тональности песни (в kits ai есть опция смещения трека). Также в случае, если жен. очень низкий. В нескольких моих примерах** такое пришлось сделать.

3. Манера пения / интонирование. Если манера очень яркая (мелизмы, опевания и т.п.), то не факт, что в "детской одежде" вокал будет выглядеть правдоподобно, но ... тут решение продюсера.

4. Язык. Для тех, кто еще не знает - не важно на каком языке песня! Если голосовая модель полная, т.е. содержит все фонемы, регистры, приёмы, то ваш (или не ваш) ребёнок "споёт" на хинди, испанском, итальянском, французском, датском, английском и др., как и я не так давно :-). Если не полная, то ... акцент просто будет более заметным.

** в примерах фрагменты - сначала исходник (16 сек), затем результат RVC.
👍 3
6 January 2025
AH
19:03
Suno: "В начале было Слово ... "

Интересно, кто-то предполагал, что алгоритмы ИИ вернут нас к первым словам из Библии? "...Все чрез Него на́чало быть, и без Него ничто не на́чало быть, что на́чало быть...". И действительно:

text to lyrics
text to music

text to video

Генерация в Suno во многом зависит от текста. Сгенерите несколько треков, оставляя Style пустым - Suno покажет, как понимает смысл, характер вашего стихотворения. (Правда, иногда мне кажется, что видя русский, система сразу "идет в библиотеку с русскими образцами"... Порой это бесит: я хотел лирику, что-то тёплое, а результат ближе к ... Мурке.)

Музыкальный синтаксис (даже инструментальной пьесы), согласно теории, включает такие части, как мотив, фраза, предложение, период. Т.е. структура мелодии имеет много общего со структурой текста.
👍 2 🔥 1
19:06
Решил провести эксперимент - как на музыку влияет ТОЛЬКО текст, если в нем количество слов, имеющих явный/ предметный образ, сведено до минимума. Т.е. эмоции заданы, а жанр, область - нет (и в Style пусто!). Да, текст работает - вот фрагменты* по 10-ть генераций для негативного и позитивного, также, соответствующие картинки от Suno.

* в Lyrics 4 одинаковых куплета, в нарезках - первые.
👍 2
19:07
Тревога, боль, утрата, горе,
потеря, кража, страшный звук.
Недуг, обман и жизнь в неволе,
конец мечтам, прощай мой друг.
19:08
Негатив
19:09
Рассвет, восторг, любовь и нежность,
мечты о будущем вдвоём.
Достаток, радость, безмятежность,
задорный смех, давай споём.
19:10
Позитив
19:17
Другой тест - форматирование Lyrics. Наверное, многие замечали, как Suno, если стихотворение не ложится в выбранную форму, ломает текст - слова куплета налазят на припев или наоборот. (Кажется, раньше таких ошибок было больше). Иногда система справляется с укладкой слов на музыку за счет:

* повтора слова, двух (или строки),
* явного удлинения гласной,
* добавления от себя ла-ла-ла

Сейчас, особенно с Upload Audio, я чаще сталкиваюсь с повтором Verse/ Chorus, чего в тексте не было. Это выглядит почти как у музыкантов - "... во 2-м ошиблись, давай повторим". Похоже, система "видит" косяк и, продолжая "отрисовку", запускает повтор... При этом, трек уже транслируется клиенту, т.е. песня останется неисправленной.
19:24
Генерация текста в Suno часто выдает такую схему: Verse1, Verse2, Chorus(1), Verse3, Verse4, Chorus(2), причем, обычно строфы - четверостишия. Попробовал по-разному компоновать один и тот же текст:

а) объединить Verse1 с Verse2, Verse3 с Verse4 (сделать восьмистишия).

б) сделать в 2 раза длиннее строки, т.е. 4-стишие в 2-стишие.

в) сделать из стиха прозу, т.е. два 4-стишия в сплошной текст, без перевода строк.

г) сделать строки в 2 раза короче.

Поскольку разные форматы были у меня в одной песне (Lyrics) и с тем же DS - можно было увидеть, как они укладываются в форме одной модели. В итоге модификации, кроме г), не влияли существенно на результат - система старалась вписать их в выбранную форму. В случае г) куплет растягивался в 2 раза - полезный приём для вариации/ разрядки.

В общем, трудно дать однозначные рекомендации по форматированию текста (с Suno почти всегда так)... кажется, стоит следовать формату Lyrics самого Suno.

Относительно ударений и эффектов, задаваемых засчет написания слов, я писал ранее: link, link. Единственное, что могу добавить - автоматическую перезапись ударных гласных заглавными буквами (помимо анализа стихотворения) удобно делать на link.
🔥 4 👍 3
10 January 2025
AH
14:16
Suno: как сервис могут использовать вокалисты и поэты?

Марина А., хорошо поющая знакомая, пожаловалась: авторы присылали стихи, просили исполнить, но качество аранжировок ей не нравилось... За пару дней освоила Suno: генерит, выбирает удачную версию, делает split voc/ instrum, записывает свой вокал (немного по-своему), собирает песню и отправляет автору.

Можно и так, но есть более эффективный путь: вокалисты и поэты могут сделать свой набор DS для тестирования текстов, моделирования, исполнения песен. Можно и со своим голосом. Думаю, 5-6 DS вполне бы хватило, чтобы "закрыть" 90% стилей/ характеров (радость/ печаль, быстро/ медленно, акустика, поп и т.п.). Хотя, конечно, здесь исполнение/ манера будут в целом от Suno, даже если тембр вокалиста или поэта.
🔥 3
14:20
Генерация нескольких вариантов займет меньше времени, чем запись своего вокала на "минусовку" Suno. Не говоря уже о том, что минусовку от живого человека приходится ждать неделю-две, месяц. Плюс, точнее минус - это и стоит немало... Ну, а если очень нужен чистый звук, то, в конце концов, с прототипом от Suno можно обратиться к аранжировщику. И для него тут задача не сочинение, а перезапись по образцу.

DS я собираю и тестирую постоянно, здесь хочу привести генерации в разных жанрах (причем, на одном и том же "тестовом" тексте). Обратите внимание как Suno отрабатывает некоторых (не пустые) стили, меняя гендер или добавляя разные соло инструменты.

Из-за того, что Suno в режиме Upload Audio часто "ломает текст", я нередко перед [Verse 1] добавляю [Bridge] - в данном тесте это может быть Уууууу, Оооооо, Аааааа, Ээээээ, Мммммм, Жжжжжж, Шшшшшш, Ииииии или только Мммммм.

Реальные треки, использованные для сборки DS*:

1. "Call Me" / Imelda May, с моим тембром (RVC, ниже на октаву)

2. "She's Crazy" / J.T. Coldfire

3. "Just The Two Of Us" / C.Aimee, D.Figueiredo (в DS только Scat)

4. "Autumn in Central Park" / моя песня (вер. Vocaloid/ Leon) с CD "Hot Stuff Dreams", Canada, 2005

* в начале в примерах DS включены небольшой частью.
👍 5
14:22
DS, Style: пустой / "Call Me"
👍 1
14:22
DS, Style: пустой / "She's Crazy"
14:23
DS, Style: пустой / "Just The Two Of Us"
14:24
DS, Style: Male vocals / "Just The Two Of Us"
14:24
DS, Style: Male vocals, Saxophone solo / "Just The Two Of Us"
14:25
DS, Style: Female vocals, Flute solo / "Just The Two Of Us" (сделал Scat вместо Flute)
14:25
DS, Style: Female vocals, Violin solo / "Just The Two Of Us"
14:26
DS, Style: пустой / "Autumn in Central Park"
👍 1
12 January 2025
AH
17:13
Меня зовут Борис. По приглашению Алексея я буду выкладывать мои находки, связанные как с ИИ в сфере музыки, Suno или Udio (а я являюсь большим поклонником все же Udio), так и в целом технологии и способы в области ИИ. То, что показалось мне интересным и заслуживающим внимания.

Модели на основе собственных изображений.

Я хотел бы рассказать о Weights - сервисе, который доставил мне много забавных моментов в новогодние праздники. Это целая система, позволяющая создавать фото, видео, делать замену голоса и т.д. Одна из функций – создание модели на основе собственных изображений. Работает на Flux, кот. на сегодня, я уверен, генерирует лучшие изображения.
17:14
Во вкладке «Обучить модель» загрузить от 5 до 30 выбранных квадратных изображений - максимально разные позы, ракурсы.

Важно задать триггер - слово, обозначающее объект генерации, например - Girl. Сама модель может иметь условное название, пусть SR1. Запустить обучение модели. Модели, кот. я создавал, обучались от 30 мин. до 6 час. примерно.

Когда модель готова, появляется возможность генерировать изображения на ее основе согласно подсказкам.

Есть возможность использовать режим квадратного изображения, портретный режим и пейзаж. Если закончилась фантазия, можно «Масштабировать запрос» и система сама предложит стиль, камеру, одежду и т.д. Эта функция работает до 100 символов в поле. Можете добавлять существующие модели других пользователей. Это возможно будет стиль аниме, ретро, скетч или же общая атмосфера (киноафиша, любительская камера, золотой час). Сервис имеет приложение для Андроид и iOS.

В качестве примера выше для модели я взял певицу Шер. Думаю, все согласятся, что она имеет узнаваемый образ.
17:16
Как использовать данную технологию каждый, сможет придумать сам. Возможно вы захотите увидеть себя на сцене рок концерта на стадионе или на пустынном пляже «подышать свежим воздухом, веющим с океана», несмотря на мороз за окном.

Поэтому, в следующий раз, когда ваша супруга или подруга скажет, что хотела бы новогоднюю фотосессию, можно ненавязчиво спросить: «Дорогая, просто скажи мне какое платье ты бы хотела на фотосессию и приготовь пока что-нибудь вкусное». Шутка)

Конечно, модель не идеальна. Из 10 сгенерированных изображений будет максимально похоже только 2-3. И то возможно будут нелепости с ногами, одеждой или с предметами. Но оставшийся результат сможет порадовать схожестью и даже творческой непредсказуемостью.
17:18
Возможно вы захотите примерить подходящий цвет костюма или стиль одежды.

... изображения с низким разрешением можно улучшить с помощью программы AIEnhancer. Она позволяет увеличивать разрешение, работать с тонкими настройками по улучшению качества, изменению размеров как изображения, так и текста.

* все изображения представлены здесь ради демонстрации возможностей технологии и являются генерациями ИИ.

P.S.

1) Правильно задать prompt, наверное, 3/4 успеха (max 1000 symb). Есть сервисы, кот. в этом могут помочь - берем похожую картинку из сети, загружаем и ... смотрим, как её описал ИИ (опция "Image To Stable Diffusion Prompt"). К слову, в самом weights создаются описания ко всем картинкам, кот. мы грузим для обучения модели.

2) Вот видео, как происходит генерация картинки в weights.
👍 5 🔥 1
14 January 2025
AH
03:24
А песни чьи?

Уже при первом знакомстве с Suno/ Udio меня интересовали 2 связанных момента:
а) как именно делается генерация (т.к. сам этим занимался),
б) кто автор в случае ИИ музыки.

Вопросы авторского права непростые даже в естественно-научных областях, а уж в сфере творчества ... Ради интереса гляньте статью (не из ГК РФ, а толкование) когда можно/ нельзя исполнять песню, делать кавер-версию - станет грустно. К примеру, если вы споёте дома с родственниками и выложите в Интернет без разрешения от автора, то это нарушение. Да и менять в песне ничего нельзя без согласования с правообладателем. И неважно, заработали вы на исполнении чужой песни или нет... Вы скажете "да кругом же все всё выкладывают и никого это не волнует" ... Ну, да, хотя ...

Я пытался представить, а как было бы справедливо, как по совести?
👍 1
03:32
i1 (фантазия): "Небольшой городок, тысяч 5 жителей, в нем ОДИН композитор сочиняет песни. Жители поют его песни всем на радость. В городке 3 музыкальных группы, кот. исполняют его песни на платных концертах, договорившись с композитором о выплате ему 10% от сборов."...

Что-то похожее было в 80-х - играя на танцах, мы сдавали репертуар и, полагаю, часть сборов шла авторам. Причем, сами решали, чьи песни петь - А.Барыкина, Ю.Антонова или ... ограничения (в %) были только на зарубежные.

i2 "Две подружки записывают каверы, выкладывают в своем блоге, собирают подписчиков... В какой-то момент находят рекламодателей и начинают зарабатывать." Они же пели без разрешения и нарушали закон! Да, но если бы они на каждый кавер пытались получить разрешение, то никогда бы блог не раскрутили. Может надо все-таки получать разрешение "задним числом" и уж потом делать отчисления автору?

i3 В кино-производстве, после того, как муз. редактор подобрал образцы, юристы договариваются с правообладателями (организациями, студиями, авторами) и получают (или не) разрешение на использование - есть время, пока идет съемка.

i4 Агентства рекламы (им надо работать быстрее) подписаны на различные стоки (фото, видео, аудио), где вопросы использования и оплаты уже урегулированы.

Фокус в том, что исполнение законов и процедур стоит денег. Часто одинаково, и для отдельного человека, и для киностудии. Вы можете поставлять/ приобретать 1 пачку соли или 3 вагона - официальный пакет документов один и тот же. Но вряд ли ради одной пачки вы станете нанимать юриста... По факту реальная ситуация ограничивает свободу любителя - того, кто только начинает обучаться творчеству.

i5 Не знаю в какой стадии и чем закончилась судебная история у Suno :.. противники вбили нужный Prompt, Lyrics и (почти) получили известную композицию 1958 г. На возражение: "ну студенты же учатся на реальных треках" был ответ: "так у колледжа есть соглашение с правообладателем"... ОК, а если я буду дома подбирать гитарное соло G.Benson'а или рифф C.Corea, это как?...
👍 1
03:42
Спец-отдел: программист + музыкант + юрист + маркетолог.
Задача: сгенерировать так, чтобы было в стиле, но без явного повторения мелодии, чтобы не "поймали за руку"...

Как с контрафактом: получили ч/з Казахстан концентрат, нашли фабрику, расфасовали в ночную смену, наклеили этикетки до боли похожие на известный бренд и с надписью "Для домашних питомцев". В рекламе пёс говорит: "Быстро кончается, похоже и хозяин ест", а хозяин: "Извини, друг, ну реально вкусно!"... Как бы все легально и у Роспотребнадзора претензий нет.

Законы и юридическая практика всегда отставали от жизни, а что же теперь, когда все так ускорилось, когда ИИ технологии усложняют и без них непростую ситуацию? Делал попытки анализировать "Условия использования" на некоторых ИИ сервисах, ... задавал вопросы в Suno support ... В итоге пришел к выводу, что нет смысла ссылаться на положения сервиса - надо смотреть, что требует дистрибьютор/ стриминговый сервис при приёме ИИ музыки. Хотя, если бы прокатчик принимал подтверждение от Suno, то в этом случае Suno был бы ответчиком на претензии 3-й стороны.

i6 Если на стриминговых платформах уже 200 млн. треков, а только Suno + Udio генерят вместе в месяц 30 млн., то какова вероятность, что "новой" мелодии еще не существует? У бардов, исполнителей кантри, блюза сплошь и рядом мелодические штампы (как и па, фигуры у танцоров). А ведь мелодия является основным объектом, как защиты, так и споров... Да, а сколько раз за концерт нарушают авторское право джазовые музыканты в своих импровизациях, где в одной пьесе десятки фрагментов мелодий?
👍 2
03:49
i7 На всю жизнь запомнил фразу шефа (лет 30 назад): "Лёша, если у вас не воруют то, что вы делаете, значит вы делаете фуфло"... И действительно, ведь заимствуют то, что обладает ценностью. Если по совести, то каждый знает, когда он приобрел, а когда просто взял чужое. С ИИ исходный объект может претерпеть такие изменение, что и автор уже своего в нем не увидит. Если только ему не сообщить о заимствовании. Например, так:

1. Взял вашу прекрасную песню (на англ.).
2. Поменял женский голос на мужской (RVC с понижением на октаву).
3. Сделал из этого DS.
4. Загрузил в Suno, вбил свой текст на русском в Lyrics (в Style - пусто), сгенерил 2 трека. Вижу, Suno не только сочинил др. мелодию, но и подмешал что-то еще (какую-то др. модель).
5. Перекомпоновал (т.к. были ошибки в структуре), отмастерил.
6. Собрал простой клип.

Кто теперь автор? Есть и такое мнение в обществе, отчасти философское: автор тот, кто задавал параметры, нажимал кнопки и, самое главное(!), принял решение, что результат полезный.

Т.е. ИИ просто ОЧЕНЬ мощный инструмент... У этого инструмента ... не возникала идея, он не ждал, заваривая кофе, 3:00 по Мск, чтобы получить следующие 50 кредитов, не думал над каждой строчкой... не радовался и не огорчался, он даже кнопки на компе не нажимал, он не прослушивал результат и не решал, удалась идея или нет.

Да, и я готов поделиться доходом, когда он будет, с автором исходника.

P.S. В принципе музыку по схожей технологии можно генерить и без Suno/ Udio, настроив все на своем компе. Просто у лидеров много приятных плюшек - с ними удобнее и результат заметно лучше... Но все очень быстро меняется. Когда генерация будет выполняться купленной мной программой на моем компе, то я, надеюсь, буду автором, ведь Suno же считает, что авторство на генерации у него.

Почему надеюсь, потому, что тенденции другие - вот Adobe недавно решила, что картинки, созданные в Photoshop'е, пользователю
не принадлежат. ... по этой логике то, что я написал в Word'е - собственность Б.Гейтса?
🔥 4 👍 2 1 👏 1
03:52
"Big Bad Handsome Man" / Imelda May, RVC (муж. AU), фрагм.
🔥 2
03:53
👍 4 👏 2
18 January 2025
AH
00:29
Создание дуэтов в Udio.

Оказывается, сделать дуэт в Udio намного проще, чем в Suno. Все благодаря регулировке длины контекста Context Length, кот. многие игнорируют. Длина контекста составляет максимально 130 секунд и указывает насколько нейросеть учитывает уже созданный (или загруженный) фрагмент. И это уникальная возможность, кот. нет в Suno. Кстати, буквально несколько месяцев назад там было всего 30 сек.

Регулировка этого ползунка позволяет сменить мелодику или даже жанр в композиции, добавить новые инструменты. И в т.ч. добавить новые голоса при сохранении мелодии. Но в этом есть и минусы, создать композицию больше 5 мин. с точным сохранением ритмичного рисунка, который был за пределом «видимости» контекста, без использования сторонних аудио программ уже становится сложно.
👍 2
00:29
Как пример я взял популярную в свое время песню Н.Караченцева и И.Уваровой «Что тебе подарить?». Кстати, так как я сразу никаких дуэтов и не вспомнил, на ум пришла песня «Две звезды». Строгое предупреждение «Copyrighted lyrics» сразу заставило отказаться от этой идеи. Точно так же Udio не пропустит, например, текст песни «Звенит январская вьюга».

Интересно, но Suno легко пропускает такие тексты. По общему мнению, и Udio, и Suno используют базу данных Genius по текстам песен. Например, правила форматирования текстов оттуда. Но вот подходы к авторскому праву у них разные на данное время.

Постараюсь максимально коротко описать процесс создания дуэта в Udio.
00:34
1 куплет - создание 32s отрезка с указанием жанра, стиля и male vocalist в поле пропмта и указанием "male" в поле текста и разметки. В данном случае это просто [Verse 1 Male]. Если достаточно место для инструментального проигрыша, то переходим к куплету 2. Если нет, то добавляем 32s инструментальный отрезок. Это позволяет развить общую мелодию.

2 куплет - создание 32s отрезка, но тут уже указываем female vocalist в поле пропмта и "female" в поле текста и разметки [Verse 2 Female]. Самое главное - не забываем сокращать Context Length до такой длины, чтобы "не захватить" мужской вокал из куплета 1, например, 10s.

Готово! Мы имеем два вокала на одном музыкальном отрезке. Теперь мы можем уже вернуть Context Length до 130s отметки и создать припев [Chorus both]. И потом уже, постоянно расширяя, добавить нужные куплеты, припевы и т.д.

Или же, если очень не терпится, скачать получившийся короткий отрезок и загрузить его в Suno. Указать, что это дуэт «duet, male and female vocalists» и послушать, какие варианты предложит Suno.

Также можно закончить песню в Udio c завершением и... начать заново(!), установив Clip Start 0. Добавить новые инструменты, немного изменить рисунок мелодии. Но уже с учетом голосов, которые вы создали ранее - в этом случае согласованность будет выше. Ну, а потом обрезать все лишнее.

Как же быть, если вокалисты одного пола или их трое и больше? Тут приходит на помощь метод имен, как например в мюзикле: Verse 1 Ann, Verse 2 Frank, Verse 3 Lia, Verse 4 Robert. Это, конечно, уже сложнее для нейросети, но в целом работает. Вы можете дополнительно задать характеристики голоса, например, жизнерадостный, молодой, хриплый, душевный. В примере ниже короткое стихотворение С.Есенина поют, например, Ann и Lia. А припев уже both. Как пользоваться этим инструментом, каждый может придумать уже сам.
👍 1
00:36
версия мужского и женского дуэта в Udio
🔥 3
00:37
начало дуэта в Udio и продолжение в Suno после 45 сек
👏 1 😱 1
00:38
версия двух женских вокалов в Udio
3 👍 2 🔥 1 🤔 1
20 January 2025
AH
22:22
Suno: а что под капотом?

Да, это то, что интересовало с первого знакомства. "Известно" - кролик думает, что бог это БОЛЬШОЙ КРОЛИК, дельфин - что ВЕЛИКИЙ ДЕЛЬФИН и т.д. ... Соответственно, я, занимаясь полжизни трансформацией, анализом и генерацией музыки в формальном представлении (Symbolic approach - MIDI/ партитура), думал, что и Suno на нём построено. Ошибался - не верил, что что-то приличное можно получить из спектра. Ан нет! Причем, в отличие от ИИ графики, где до сих пор у персонажа случается то 3 ноги, то 4/ 6 пальцев, в музыке (сбои не в счет) ошибок нет: и ноты, и ритм - правильные. Похоже потому, что сама музыка = математика/ физика - в ней всё строго, однако...

С Suno часто так: задаешь параметры, а на выходе что-то непредсказуемое. Да, удивление и разочарование - нередко первая реакция на поведение генеративных ИИ... Но если хотя бы в общем виде понимать, как "железяка" работает, пользоваться ей будет проще.
👍 1
22:24
"IFeel Good" / J.Brown, Vocaloid (Leon)
22:26
Это небольшая иллюстрация природы звука: аудио, волна и спектр - последние 9 сек (с 0:06) - "... I Got You" фрагмента композиции "I Feel Good" Джеймса Брауна, исполненные в моём давнем эксперименте с Vocaloid (Leon).

Чтобы ИИ сгенерировать музыку, ему надо правильно нарисовать Wave или Spectrum (одни из подходов).
22:36
Генерация в Suno, как и у др. подобных систем, базируется на методе Stable Diffusion и его разновидностях. На пальцах процесс обучения алгоритма (модели) выглядит так:

1. Берем изображение*, например, номерной знак авто.

2. Слегка посыпаем песком или забрызгиваем грязью (шум).

3. Тренируем ИИ алгоритм, чтобы он "почистил, восстановил" картинку до исходной.

4. Снова "портим" изображение, но сильнее (больше шума).

5. Повторяем пп.3,4 многократно, пока картинка полностью не будет загрязнена (зашумлена) и... восстановлена.

Voilà, модель обучилась, т.е. может восстановить изображение номерного знака (точнее - его подобие) из фотографии песка**.

Вот видео, как происходит генерация картинки в сервисе Weights.

* еще недавно все графические ИИ сервисы работали только с квадратными изображениями.

** а мы еще удивляемся, почему треки обычно "с шумком". И шум, скорее всего, не аддитивный, а мультипликативный ("песок не на янтарном брелке, а в самом янтаре").

Так что же "под капотом"? В каталоге научных статей и диссертаций arxiv.org при поиске по "generative music" в списке из почти 400-х работ я не нашел ни одного упоминания о технологии Suno***. Оно и понятно, это коммерческий проект. Но нашлась подробная научная статья о похожем инструменте - JukeBox. И хотя, в отличие от Suno, он манипулирует волной, а не спектром, у них очень много общего - схожие как технические задачи, так и "болезни".

В списке источников к статье более 70 ссылок - в основе большая научная и практическая работа сотен ученых. (Первые опыты еще 1957 г., хотя то, что мы используем сейчас - результат последних 10 лет.) Генерация песни - комплексная задача, поэтому и в названиях основные темы анализ и генерация текста, речи, вокала, музыки (См. на русск).

К сожалению, "Смирновых/ Коваленко/ Зариповых" в списках авторов нет - на 1-м месте Китай и Япония: Цзятао Чэнь, Тяньмин Се, Син Тан, Цзин Ван, Вэньцзин Донг, Торнике Карчхадзе, Мохаммад Расул Изади, Ке Чен, Жерар Ассаяг, Шломо Дубнов, Бин Ши, Цзиньлун Чжу, Кейго Сакураи, Рен Того, Такахиро Огава, Мики Хасеяма (авторы трех статей для примера).

*** Suno (как и Udio) упоминались в работах о том, как научить ИИ распознавать ИИ музыку 😄
3
AH
22:51
Какие задачи решали ученые и инженеры? Вот лишь малая часть:

а) сжатие объема данных без потери "музыкального смысла";
б) снижение объема вычислений;
в) масштабирование образов со снижением шумовой компоненты;
г) согласование текста - мелодии - аккомпанемента;
д) бесшовная "стыковка"* отдельных частей.

* все помнят, что вначале Suno/ Udio генерили короткие фрагменты, потом длиннее.

Какие "болезни" у систем генерации?

а) ошибки согласования текста с мелодией;
б) ошибки согласования мелодии с музыкальной структурой;
в) несвязность - "не помнит", что было в предыдущих частях;
г) "не держит" темп - очередной мини-фрагмент короче;
д) явный эффект хоруса в вокальных партиях;
е) заметное присутствие шума в генерациях.

Вот несколько цитат из статьи:

... голоса, генерируемые этими моделями ... в основном состоят из лепета, редко воспроизводя узнаваемые английские слова

... в целевом аудио нет разделения между Lead vocal, Back vocal и BGM. Это делает задачу "текст в пение" значительно более сложной, чем ... "текст в речь"

... стратегия линейного выравнивания ... не работает для определенных жанров, таких как Hip-Hop

... апсемплеры имеют 1 млрд парам. и обучаются ... в течение 2 недель ... предшественник верхнего уровня имеет 5 млрд парам. и обучается ... в течение 4 недель

... модель, обученная на этом новом наборе данных ... продемонстрировала музыкальность и связность в течение более 1 мин.

... использование частоты дискретизации 22 kHz ... вносило шум ... что мы слышим как зернистую текстуру

... образцы остаются ... связными в музыкальном плане на протяжении ... ~24 сек и сохраняют схожие гармонии и текстуры ... Однако ... мы не слышим долгосрочных музыкальных моделей ... припевы или мелодии, которые повторяются

... сгенерированные мелодии обычно менее интересны, чем мелодии, сочиненные человеком ... мы редко слышим припевы, которые мелодически запоминаются

... попытки смешать (голос) кантри-певца А.Джексона с необычными жанрами, такими как Hip-Hop, Punk, похоже, не отодвинули образцы от стиля кантри

... выбираем артистов ... для синтеза новых голосов ... смешивания, например, между Ф.Синатрой и А.Джексоном ... все еще звучат похоже на Ф.Синатру

... примеры ... обусловленные образцами С.Дион ... имеют немного другой тембр и тон, но сохраняют ее уникальное вибрато.

Suno = КАПРИЗНЫЙ ТКАЦКИЙ СТАНОК! Да, такая аналогия у меня возникла, после прочтения статьи (и опыта работы с Suno): станок что-то ткёт "от себя", а оператор бегает вокруг, пытаясь его контролировать - то узор не тот, то краска не та, то нитки рвутся, то начинает сначала, то резко останавливается.

Похоже? Однако, несмотря на аналогии, Suno/ Udio - сложнейшие системы, созданные на базе серьезных научные изысканий и нетривиальных инженерных решений. Результат работы которых - музыка (средство эмоциональной коммуникации!), адресован человеку. Здесь ИИ, по сути, "посредник" между человеком и его воображением: "сделай то, что я строго, формально описать не могу" (партитура - не в счёт, там нет исполнителя).

И, как это уже становится очевидным и в др. областях применения ИИ, попытки моделирования объекта неизбежно ведут к более глубокому пониманию его природы. Так и здесь, благодаря ИИ, ученые-музыковеды делают открытия и больше узнают о природе музыки, ну и ... о самом человеке 😄
🔥 9 👍 3
24 January 2025
AH
00:11
Suno: почему такое поведение?

Lyrics, Prompt'ы, модели, DS... Хочу рассмотреть моменты, кот. вызывают множество вопросов.

С проф. Synth, вы получаете 2 книги - User Guide, Voice Name List (на ~150 стр.). C DAW у вас есть Help (встроенный, онлайн) + на форумах можно узнать о недокументированных функциях. Т.е. поведение этих Hard / Software вполне детерминировано. В Suno/ Udio у нас ~7 кнопок, 90% работает "на автомате" и результат часто непредсказуем. Из чего все складывается?

Влияние Style. Пусть у нас в Lyrics* НЕТ команд, влияющих на Style, как [Saxophone solo], [Distortion guitar] или [Expressive singer] - только разметка текста - [Verse], [Chorus] и т.п. Если в Style:

v1: Pop - то "хороших" моделей** много (например, 500);
v2: Pop, Acoustic - чуть меньше (скажем, 300);
v3: Pop, Acoustic, Harmonica solo - еще меньше (пусть, 50);

Для v1-v3 Suno, вероятно, сможет ОДИН трек сгенерить из ОДНОЙ модели.

* Lyrics и сам по себе влияет на выбор моделей.
** модель - реальный трек/ прототип в базе Suno.
👍 2 🔥 2
00:16
[1] Suno, при нажатии кн. Create, выбирает 2 подходящие модели (из M1, M2, ... Mn). Из каждой модели может быть создано множество похожих треков (Similarities) - в итоге мы получаем два трека (A и B). При следующем нажатии (при тех же Style/ Lyrics), "выпадут" другие A и B. А что случится при усложнении Style?

v4: Pop, Acoustic, Harmonica solo, Khomus - этот набор может оказаться "конфликтным", т.к. не найдется модель "western country-pop ballad" с тувинским хомусом. В этом случае Suno с большой вероятностью будет использовать ДВЕ модели (т.е. добавит еще одну "от себя" с хомусом) или проигнорирует часть prompt'а. В итоге число вариаций скорее всего возрастет.
🔥 4 👍 1
00:22
[2] Генерация из DS, хоть и зависит от его содержания и указаний в Style/ Lyrics, существенно уменьшает число вариаций, особенно при пустом Style. Здесь A и B будут похожими, т.к. создаются из одной модели (DS).

Чем полнее по инструментам фонограмма (BGM/ Background music) в DS, тем меньше вероятность, что Suno будет смешивать* модели (т.е. добавлять другую, например, ради включения сольного инструмента).

* смешивание моделей очевидно предполагает их согласование в координатах Time/ Frequency (Tempo/ Key), т.е. добавляемая модель должна быть отмасштабирована.

Иногда "безобидная" команда в Lyrics может поменять характер генерации из DS и при пустом Style. В примере ниже на DS с классическим романсом после указания [Guitar solo] в Lyrics, система, помимо добавления Distortion Guitar, ударных и баса, поменяла ритм, гармонию и, ... при пустом Style, выдала дикий микс. Возможно, в v4, где есть негативный prompt, легче заставить Suno следовать только DS (т.е. запретить ему добавлять инструменты). Правда, в нескольких предыдущих опытах и это не помогло.

А вот, в некотором смысле, "противоположный" пример. Уникальный случай: в 10 генерациях из DS (с высоким М голосом, "Small Town Boy") система ни разу не исполнила команду [Female vocals], записанную как в Style, так и перед каждым Verse/ Chorus в Lyrics. Т.е. ни разу не подключила Ж вокал, хотя синтезируется он отдельным алгоритмом, кот. жестко с моделью не связан - здесь же он менялся с Ж на М!
🔥 3 👍 1
00:25
DS (романс), 3 фрагм. из одной генерации.
😱 2
00:26
DS "Small Town Boy"/ Louis Jordan, 6 генераций (фрагм.)
🤔 1
00:30
Есть еще одна причина вариативности - форма/ структура, заложенная в модели. Итоговая генерация, похоже, результат взаимодействия нескольких слоев:

а) структура текста;
б) тональный (мелодия, аккордовая
последовательность);
в) форма модели (ритмика/ фактура, Drum fills).

И непонятно что первично. Возможно, это определяется свойствами Lyrics. Если там строгий размер (ритм), то форма модели подбирается под текст. Если там, в смысле ритма, бред (например, инструкция к кофеварке), то текст подгоняется под форму модели. Или "движение с двух сторон" - и структура текста, и форма изменяются.

Для меня самым заметным является несостыковка структуры текста со структурой модели. Причем, явного расхождения гармонии с мелодией не наблюдал, а расхождение с формой (ритмикой, аккомпанементом, "сбивками"/ брейками) - многократно.
🔥 5 👍 1
00:38
Т.ч. Lyrics, Prompt'ы, модели/ формы + доп. модели - с одной стороны, все это источники вариативности генераций, но с другой - обеспечение, в каком-то смысле, безопасности* для основателей Suno. Чтобы звучало хорошо, но чтобы и не выдало что-то близкое к "Numb" / Linkin Park, "We Will Rock You" / Queen или какому-то др. хиту... При таком вероятностном поведении системы трудно давать инструкции, как в описаниях к Synth/ DAW - вы сделали все по пунктам, а получилось совсем другое. Выход тут только один - больше экспериментировать ("рыбачить").

Теперь, когда причины "непостоянства" генерации в Suno (Style, Lyrics, DS) в какой-то мере освещены, можно заняться описанием сборки DS (Dataset).

Я делю DS на речевые, вокальные, инструментальные (BGM) и полные (BGM + vocal). Видимо, по каждому типу буду делать отдельный пост.

* к слову, 21 янв. иск против Suno в Мюнхенский суд подала GEMA.
🔥 5 👍 3
26 January 2025
AH
14:13
Какой жанр?

При создании музыки самым первым вопросом стоит «А какой же точно музыкальный жанр использовать?». Думаю, многие, в том числе и я, узнали значительно больше о современной классификации стилей, жанров и поджанров при работе с подобными нейросетями. Так с чего же начать?

На вкладке Explore на сайте Suno есть список различных стилей и направлений. Всё это красиво крутится и можно сразу же прослушать несколько примеров в данном стиле. Всего там представлено 878 музыкальных стилей, я их собрал в отдельную таблицу на Гуглдок.

Другое дело, что это скорее просто показатель возможностей Suno. Лично я очень сомневаюсь в существовании отдельного стиля russian afrikaner folk или русского грайма. Но это очень интересно с точки зрения экспериментов и поиска нового. Кроме того список основных жанров можно найти на Suno Wiki (новом сайте).
🔥 6
14:17
- Можно ориентироваться на авторитетнейший сайт RYM. Там перечислены основные стили, жанры и поджанры. Причем список постоянно дополняется и уточняется.

- Очень интересно выглядит визуальный сайт-карта Everynoise. Он создан на основе API Spotify и содержит на текущий момент 6291 жанр. В нижней части сайта объясняется организация карты: «Ниже располагаются более инструментальные, выше — более механические и электронные стили, слева более «атмосферные», справа более «ритмичные». Есть разбивка по странам. Для любого жанра на сайте есть 30-секундный сэмпл. Наведите курсор на жанр, чтобы увидеть исполнителя и информацию о треке. И можно нажать на стрелочку справа, для открытия карты исполнителей этого жанра.

- Еще одна интересная визуальная карта Music-Map. Вы вводите имя исполнителя или название группы, а сайт показывает, какую музыку слушают другие люди, которым нравится тот же исполнитель. Названия появившихся исполнителей кликабельны - при нажатии они образуют новую карту с рекомендациями.
👍 4 🔥 1
14:19
Если всё это слишком «много» и на иностранных языках, всегда можно воспользоваться новым сервисом от Сбера в Tелеграм @gigachat_bot

Он открылся буквально перед НГ, и там на вкладке «Создать песню» можно поэкспериментировать с отечественной разработкой по генерации музыки. Вы можете выбрать из списка готовых жанров или описать свой. Можно создать как песню, так и инструментальную композицию. Как утверждают разработчики при создании использовалась интеграция нейросетей CLaMP и SymFormer. И датасет состоял из более чем 200 тысяч композиций разных музыкальных стилей: от классики до современной электронной и тяжёлой музыки.

Я попробовал и понял, что разметку текста «куплет-припев» пока данная нейросеть не понимает ни на каком языке. И результаты, мягко говоря, пока очень сомнительные. Но нейросеть новая, в открытом доступе буквально месяц, возможно, что в скором времени мы увидим дальнейшие обновления и музыкальные шедевры 😊
🔥 4 👍 2
14:24
Поэтому вы можете самостоятельно попробовать смешать различные стили и жанры, добавить инструменты и посмотреть какой результат получится. В конце концов принцип
Nondeterminism - это наше всё при создании творческих произведений с помощью ИИ.

Вполне возможно и вы создадите что-нибудь, что войдет в историю музыки, как например композиция «Rumble» Линка Рэя 1958 года, которая стала родоначальником многих рок-жанров от сёрфа и гранжа до хеви. И которая, кстати, без слов (!), но была запрещена на некоторых радиостанциях в США как сомнительная и даже вульгарная для того времени. Именно там Линк придумал «power chord» и использовал дисторшн.

И небольшой лайфхак дня на сегодня.
Использование Музыкальных обозначений , принятых в классической музыке, а в основном они итальянские, такие как ostinato (настойчиво), rubato (свободно), teneramente (нежно) и т.д может значительно расширить мелодику ваших композиций как в Suno, так и в Udio.
👍 5 🔥 2
29 January 2025
AH
00:11
Suno: Смотрим prompt'ы у других.

Получил вопрос - "как сделать академическое пение и голос сопрано?" ... Давно, когда снова не получилось задать нужный Style, посмотрел, что вбивают другие. О, там много интересного - сам бы не догадался о таких командах. Правда, подтвердить на 100%, что они рабочие сложно, что-то работает, что-то - нет. Причины:

а) вариативность,
б) Lyrics можно изменить после публикации - т.е. трек не будет соответствовать тексту (!).

Скорее всего это попытки использовать шаблоны. Правда некоторые инструкции кажутся бредом, а может кто-то знает "секретный список" недокументированных команд вроде:

[15 seconds violin solo]
[Chord Progression: E♭ - B♭'D - Cm - A♭ ]
[Key Change: Modulate to F major]
[Noise reduce]
[Perfect EQ]
[Soft EDM Pad at 432 Hz with Atmospheric Sounds]
[Tempo: 128]
[Vocalist#564874856]


Ни одна из таких команд у меня не сработала. Смотрел чужие треки - там темп и гармония тоже не соответствовали командам. Наверное, надо больше экспериментировать 😊.
👏 5 👍 1 🤔 1
00:14
Ищем что-то похожее. Процедура: [1] Search > [2] вбить ключи > [3] послушать, выбрать подходящий трек. Затем скопировать Style, да и в Lyrics команды посмотреть. Гарантий не очень много, что будет звучать также, что же ... можно еще какой-нибудь трек попробовать и т.д.
3
00:17
Но есть более верный способ - Extend (продолжить) существующий трек: > 1,2,3,4.
4
00:21
Т.е. мы сгенерим 2 трека, как продолжение существующего. Хорошо, если вначале* есть вступление, где "задаются" гармония, инструменты, вокал и т.п.

Вбиваем свой текст. Style лучше не менять, правда, тип вокала все-таки стоит указать. Особенно, если нужна смена гендера. Кажется, лучше его прописать недалеко от начала. Затем указываем время, с кот. нужно продолжить, пусть 0:34. Расширяем!

* за одну генерацию время (часть исходного + продолжение), похоже, не может превысить 4 мин. Т.е. можно продолжить и с 3:15, но тогда у нас всего 45 сек. Можно выбрать любой произвольный фрагмент из середины и использовать Upload Audio, но:

а) чужой трек скачать нельзя, придется его записать (например, с помощью
link)... Усп!, Борис пишет, что можно на link 😊

б) качество, скорее всего, будет хуже. Да, и в конце концов, чем это отличается от того, чтобы взять нужный фрагмент "на стороне"?
00:28
Для примера я выбрал инструментальный трек Gypsy со стилем: [Gypsy king 1995, Flamenco, Gypsy, percussion, cajón, clapping, Spanish guitar]. И с Lyrics на русском продолжил его с 0:27, добавив [Female vocals] в промпт. Вот результат (фрагменты):
00:30
Исходный, вар.1, вар.2 (фрагм.)
🔥 3 👍 2 🥰 1
00:35
За все время (> 1K генераций), думаю, применил не более 10 чужих prompt'ов, в частности:

Clear female voice, Holy, Epic anime, Emotional higher pitch voice

Medieval, Female Singer, Ars Antiqua, Storytelling, Bard, Lute, minor key, Tavern Song, Clean Voice, Darkness

1950s rock and roll, rhythm & blues, 12 bar blues, rockabilly, energetic male vocalist, singer guitarist

Russian Gypsy Romance, Male vocals, Two Guitars, Reflective, Melancholic, Hopeful, Emotional singer

PS: 1. Как-то долго не удавалось задать размер 6/8 и Extend подходящей композиции выручил.

2. [Vocalist#564874856] - я увидел еще полгода назад и подумал: "... вау(!), у голосов есть ID, круто! А где список?" ... Кажется он Ж. И один раз мне сильно помог: DS с блюзом и высоким М вокалом никак не хотел генерить Ж версию - [Female vocals] и тому подобное вбивал и в Style, и в Lyrics, но только с этой странной командой в Verse/ Chorus появился Ж вокал, правда лишь в первой половине трека 😞.
👍 7 🔥 1
31 January 2025
AH
02:18
Встречаем RIFFUSION

Новую старую музыкальную нейросеть.

О том, что некоторые разработчики работают над нейросетью для музыки на основе Stable Diffusion новости были еще год назад. Результат были мягко говоря не очень. Особенно в части вокала и мелодики.

Но наконец, по моему личному мнению, сегодня у них получилось.
🔥 2
02:21
Riffusion

Новая модель Riffusion под названием FUZZ-0.7, которая вышла только сегодня, позволяет создавать композиции с хорошим качеством. Пока все бесплатно, но никто не знает сколько это продолжится.

Загрузка материала происходит как в SUNO целиком. Полностью и на отлично работает с разметкой песни. Выделю основные моменты, которые сразу обратили на себя внимание.

1. В разделе Sound где вводятся стили, жанры и т.д. работают автоподсказки как в Udio. Как только вы выберите pop, вам предложат дополнительные варианты pop-rock, pop dance, pop ballad и прочее. Лично мне это очень нравится.

2. При включении Advanced (расширенный режим), можно влиять на Sound Strength (близость к вашему prompt'у), Lyrics strength (влияние текста), Weirdness (вариативность) кажется похоже на Clarity в Udio. Также можно задать значение Seed для точного (при неизменных других параметрах) повторения генерации.
🔥 5 👍 3
02:26
3. Есть возможность указать какие жанры и инструменты будут использоваться и в какое время. Для этого можно нажать + в поле Prompt. И откроется дополнительное добавочное окно с разметками времени. Кажется крутой функцией, если разобраться с тонкой настройкой.

4. Продление песни Extend тоже завезли.

5. Возможность использовать три модели. FUZZ-0.7, FUZZ-0.6А и FUZZ-0.6В. Для этого можно нажать на свое имя пользователя слева и выбрать нужную модель.

7. Загрузка файлов извне. Работает без ограничений по длине. Или по крайней мере я не увидел. Загружает целые песни, которые можно редактировать.

8. Функция Cover. Вы можете создавать кавер композиции как уже созданной прямо в Riffusion, так и загруженной вами извне.

9. Функция Replace, которая позволяет изменить текст или мелодию на выбранном вами отрезке.

10. Загрузка файлов созданных песен и композиций из приложения в формате m4а. И загрузка стемов!
_
Интересно? А ведь это ведь еще не все и пока бесплатно. Поэтому настоятельно рекомендую попробовать и составить собственное мнение.

Из минусов сразу могу отметить серьезные трудности с ударением и целом произношением в русском языке. Но, вспоминая, как я часами бился в Udio в начале над произношением, это уже кажется ерундой. Так же при генерации каверов у меня в 50% случились ошибки генерации.

Но в целом в лице Риффузии мы видим нового серьезного игрока на рынке нейромузыки, причем пока с бесплатным функционалом, хорошим звуком и новыми возможностями.

На сайте есть краткое руководство по основным функциям.
🔥 6 👍 2 🤔 1
02:29
Для ознакомления с качеством звука, вокалом и мелодикой прилагаю короткие фрагменты песен на русском языке. Композиция "Новогодняя" в 2-х версиях: там была применена функция Replace - изменены первые две строчки с 16 секунды. Все представлены как есть, без редактирования.
👍 3 🔥 2 1
02:32
Replace первые две строчки с 16 секунды
3 February 2025
AH
00:10
Suno: а что профессионалы?

Да, отношение к ИИ неоднозначное. Стоит ли спрашивать у тех, кто музыку ИИ не принимает вообще? Например, залип на том, что в молодости слушал - RadioHead, Depeche Mode - "теперь в группе играем только в этом стиле"... Двум джазистам (они "по жизни" всеядные и более гибкие) я задал вопрос "где косяки?"

Сергей КОКОРИН. Заслуженный артист Кубани. Лауреат международных фестивалей - Израиль, Швейцария, Япония, Россия. Был солистом оркестра Г.Гараняна, рук. "Black Sea - Band", членом экзаменационной госкомиссии МГИК. Работал с отечественными певцами (Манукян, Пугачёва, Кельми, Саруханов, Распутина...) С 1996 г. худрук и дирижёр оркестра "Биг-Бэнд Сочи" (y1 y2 y3).

Алексей ПЫСТИН. Самый востребованный джазовый пианист Новосибирска, аранжировщик, композитор, педагог. Организатор российских и международных джазовых фестивалей, арт-директор НИИКуДА и J&M. Создатель ансамбля "Hard Jazz Project" (ранее "Weekand"), автор 20-ти программ для Новосибирской гос. филармонии (y1 y2 VK).
🔥 1
00:15
С Сергеем (СК) знаком по Новосибирской консерватории, где преподавал "Муз. информатику" и разрабатывал муз. комп. на базе ПК "Агат-7" (Apple II). С Алексеем (АП) - больше по НИИКуДА - культовому клубу, куда он умудрялся приглашать номинантов Грэмми, иногда с одним концертом в РФ (в Академгородке Н-ска). Каждый сыграл на одной сцене с более 150-ю профессионалами со всего мира, среди кот. номинанты и обладатели Грэмми, солисты оркестров Каунта Бэйси, Дюка Эллингтона, Куинси Джонса, Тито Пуэнте, Роя Эйерса.

Я отправил Сергею и Алексею 4 Suno трека, обычных, а не специально отобранных - с тем же текстом и то, что система выдала "сразу":

1A, 1B сгенерированы на DS (только инструментал) "Small Town Boy"/ Louis Jordan, в Style: [Female vocals];

2A, 2B - с prompt'ом: [BossaNova, Latin Jazz, Female vocals, Acoustic guitar solo]...

Получил ответы музыкантов в аудио... Эти треки и комментарии ниже.
👍 2
00:18
2A
👍 1
00:23
АП: ... комментировать это и трудно, и просто одновременно. Трудно потому, что я знаю, что это сделано ИИ... Просто - если перебросить себя в то время, когда ИИ не было и уровень звукозаписи был близок к тому, что я здесь слышу (середина 90-х), я бы сказал, что это работа выпускника муз. училища. Непонятно, зачем прописан вокал дважды и так манерно, бас звучит "клавишно" ... В общем, работа на твердую 4-ку. Дальше уже начинаются вещи из серии композиторских и исполнительских претензий... Но в 90-х не возникло бы подозрения, что это сделал не человек.

АП: C точки зрения того, что все это создано ИИ, на самом деле претензий нет... Но если начинать докапываться, то:

а) ... в слишком резко, зачем то вступает биг-бэнд - с моей точки зрения это не совсем верно.

б) ... в 2B в гитарных соло есть спорные ноты*, когда гитара приходит условно в 4-ю ступень аккорда. Но это случается редко и опять же я знаю, что это сочинено ИИ...

* в 2B гитарные соло играются по Amaj пентатонике с C#, что подходит к аккорду А, но там есть и D7, к нему она не подходит из-за наличия чистой С... В джазе мышление в соло одной пентатоникой на разные аккорды почти всегда выдает дилетанта - это не Root Blues... В 1A это тоже слышно.

АП: В общем, уровень сочинительства на данный момент на 4-ку, а до отличного осталось лет 5 и оно будет.
👍 4 2
00:30
СК: ... ты мне задал очень сложную задачу потому, что все элементы в аранжировке совершенны. В номерах 1A, 1B используется прием начала прошлого века, когда вокал обыгрывает инструмент - труба с сурдиной, гитара... Эти элементы импровизационного, контрапунктивного обрамления мелодии, просто совершенные узоры... их можно снимать и в жанре классического джаза учиться на этом... мне понравился 1B больше, чем 1A - мелодия более развита, шире используется гармоническая фактура... это придает аранжировке большую "породистость"... это не значит, что 1A хуже, просто здесь мелодия, в целом аранжировка, картина художественная ... проще и в гармоническом смысле скромнее...

СК: ... насчет косяков... Я заметил в 1A "косячок" грамматический и мелодический на 1:08 - разрешение гармоническое на септаккорд и в мелодии нелогичный оборот на словах "терпима я всегда к себе"...

СК: ... следующие (2A и 2B) под гитару... знаешь, я настолько потрясен, что даже не знаю... комментировать что-либо трудно - очень здорово выполнены работы. ... 2A более камерный вариант, 2B - более свинговый, он чуть ярче. Оба заслуживают высокой оценки - мелодия, аккомпанемент, вкус... очень здорово, просто совершенно.

СК: ... меня до мурашек по коже потряс вокал в конце аранжировки в 2A ...все остановилось и, казалось бы песня закончена, потом... голос продолжил вокализ, затем подхватила гитара... это прозвучало настолько душевно, интимно, ну просто удивительно! Неужели это сочиняли не люди? ... даже... драматургические, театральные, режиссерские моменты использованы.

СК: ... последний вариант (2B) - тоже потрясающая работа... В конце соло гитары такое, что его можно снимать, учить и получать качественное образование. В общем, мне все понравилось настолько, что мне даже неудобно это комментировать - очень хорошая работа. Вот, серьезного добавить нечего, кроме как восхищения... такой замечательной программой, в которую вложены потрясающие элементы и стиль...
👍 5 👏 5
00:34
В общем, я был не прав, когда утверждал, что у Suno все ноты правильные. К слову, Марк Ш. в интервью тоже отмечал что-то подобное*. Оправдаюсь - у Suno косяки не критические, я в живых выступлениях проф. музыкантов слышал огрехи намного серьезнее. Здесь можно было бы сказать (от Suno) известное "я так вижу", но я, кажется, понимаю, из-за чего ошибки в ступенях:

а) смешение** моделей - т.е. перенос мелодической фигуры согласно аккорда, но без учета тональности/ лада.

б) короткое по времени "окно" анализа гармонии и генерации - т.е. система не очень строго следит за тем, что было ДО, и что будет ПОСЛЕ.

С подобными вещами я сталкивался и в алгоритмах анализа/ трансформации символьных/ MIDI -данных.

* "... в соло гитаре есть ноты альтерированные, но они звучат как будто музыканты экспериментируют. Потому, мне кажется, они не были на 100% прочитаны стилистически".

** Кстати, и "тембровый микс", нередкий у Suno и др. подобных ИИ генераторов (когда в одной фразе рояль переходит в трубу или акуст. гитара в скрипку), похоже, тоже результат смешения моделей.

P.S. 1. Насчет "до отличного осталось лет 5", о чем сказал Алексей - я уверен, все произойдет намного раньше.

2. Для анализа (с бо́льшим охватом) лучше всего было бы привлекать студентов колледжа - хоровиков, теоретиков, курса 3-го (энергия, задор), из тех, у кого и практики много - т.е. не только знания в голове, но и опыт в пальцах. А в консерватории можно было бы давать курсовые типа: "Стилевая точность регги в образцах музыки генеративного ИИ на примере Suno и Udio". Или уже дают?😀
🔥 5 👍 3 1
6 February 2025
AH
00:26
Одной песни альбом ?!

До Suno/ Udio и др. ... клиент заказывал и получал через нед./ мес. аранжировку, кот. сложно было изменить, а другую создавать было накладно... Сам автор, если обладал навыками игры и работы с hard/ software, был в выигрышном положение - выбирал стиль, записывал, полировал ... нед., мес., год ... но!, обычно это была одна версия. А если не угадал со стилем?

В рекламе одного нашего банка одно и тоже предложение (текст) подавалось "языком" потенциального клиента: пенсионера, студента, оленевода, бизнес-леди... Зачем? - чтобы сработало!

Наблюдения:

- иногда кавер популярнее исходной версии;
- авторам не всегда нравится то, что любит публика. Артист поёт новое, а зал требует песню 20-летней давности, от которой сам певец давно устал;
- шедевры порой создаются спонтанно*, а не в результате упорной работы по плану;
- зальник, звучащий, как правило, хуже, часто интереснее "вылизанной" студийной записи;

* по одной из версий Консуэло Веласкес написала Bésame mucho в возрасте 15-ти лет.
00:35
Некоторые не принимают кавер или вариацию самого автора на концерте - "соло не такое, барабанщик не так сыграл" и т.п. - эдакий музыкальный импринтинг от первого знакомства... Лет 20-ть назад Р.Дататрейя, мой партнер, показал мне удивительный сайт (ныне закрыт), где было собрано под сотню каверов Bésame mucho - множество классных аранжировок в различных стилях, интересных не только для прослушивания, но и для изучения. А как же с единственно верным исполнением?

В кино/ театральной музыке есть такой подход, когда одна главная мелодическая тема (лейтмотив) обыгрывается в совершенно разных вариантах - быстро/ медленно, мажор/ минор, одним инструментом (соло), симф. оркестром, даже в разных размерах, например, 4/4 и 6/8.

Разные аранжировки одной песни приходится делать для радио - там бизнес, а не поиск шедевров, поэтому самое главное - точное попадание в характер станции. "В чужой монастырь со своим уставом ... " и если мейнстрим - гитарные пассажи в стиле Heavy Metal, то великолепное соло саксофона не поможет, а повредит. Первый похожий случай (до Suno) у меня был в 2008 г. когда мою песню спел дуэт из США Beverly Bremers и Rick Paul (BB&RP) - для нее (на всякий случай) сделали 3 версии* (Jazzy, Pop, Club). Правда, менялась только аранжировка - вокальные треки те же.

* На самом деле версий было больше, т.к. я в то время экспериментировал с привнесением выразительности в пение Vocaloid с помощью своей программы StyleEnhacer YV.
00:38
Фрагм. "Make Me Feel": 1) Jazzy/ BB&RP, 2) Club/ BB&RP, 3) Pop/ Miriam-BigAl (En), 4) Pop/ Miriam-Leon (Ru)
🔥 3
00:47
А вот с Suno все радикально изменилось. Зная, каких трудов стоит создать полноценную аранжировку и то, что в некоторых "акустических" жанрах, как биг-бэнд, это почти невозможно (проще, но не дешевле, нанять оркестр), я как "геолог, горно-добытчик" собирал все образцы. Благо, "руда" богатая. Ради тестирования системы я пробовал самые разные стили и удивлялся, как свежо, по-новому, иногда неожиданно и с совсем другой эмоциональной окраской звучали старые тексты. И ... признавался себе в том, что сам бы, ранее, без ИИ, даже не пытался какие-то стили попробовать не только из-за того, что они "не мои", но еще и потому, что это было бы затратно.

... Создал у себя на сайте каталог, где на каждый текст от 4-х до 20-ти версий в разных стилях. Стал показывать знакомым и обнаружил, что разным людям нравятся разные версии, что порой мой №1 вовсе не самый популярный. И действительно, один и тот же текст, если песня в стиле Г.Сукачёва - это одно, а если в манере Л.Утёсова - совсем другое... Чтобы явно выпадающие отсеять, я слушал песни на один текст на прогулке (если их 10-ть, то это ~30 мин.) - как бы альбом, но необычный! Это даже не сборник каверов - там хотя бы мелодия в принципе та же... И мне показалось это интересным. В итоге у меня на телефоне несколько папок - каждый раз решаю, какой альбом сегодня послушаю 😊.

Неделю назад попросили сгенерить "поздравлялку" на Д.Р. - обычное дело. Запросил "данные" о товарище, сочинил текст, сгенерил более 10 версий в разных стилях... Конечно, сейчас народ уже трудно чем-то удивить, но ... итог положительный: эта - понравилась имениннику, эта - его жене, под эту - прыгали, под эту - медленный, "белый танец", под эту - взгрустнули и т.п.

В общем:

-- похоже, "Альбом одной песни", как формат, имеет право на существование;

-- если песня создается для людей (а не только для себя), то стоит пробовать разные жанры для одного итого же текста, как бы самому и не нравился конкретный стиль.
👍 10 😁 2
00:49
8 разных припевов "Поздравления
Александра"
👍 6
9 February 2025
AH
15:25
Intro, Outro и… Sonauto

При создании песни или композиции довольно часто встает вопрос о логичном вступлении и концовке. Было время, когда все мои песни в Udio имели вступление ровно 32s. Так как именно этот отрезок можно там создать☺️.

Но выходят обновления, и для того чтобы сделать Intro (вступление), уложившись в задуманное время, достаточно в Udio обрезать расширение с помощью функции Trim. И затем отредактировать с функцией Inpaint, поставив начало композиции на ноль. Так же, только с точностью наоборот, можно поступить с Outro (завершение). Но эта функция платная.

В самом Suno нет возможности сделать новое вступление в композиции. Да и с концовкой бывает приходится повозиться, к тому же повлиять на время, за которое должна прозвучать концовка, мы тоже не можем. Поэтому сегодня мы ищем варианты, причем неожиданные и, главное, совершенно бесплатные.
15:30
И поможет нам в этом Sonauto. Музыкальная нейросеть, которая существует уже давно (как я понимаю, их модель вышла раньше официальной Udio). Она имеет довольно серьезные проблемы с общей мелодикой (по моему мнению), создает композиции длительностью 1:35, но их можно дополнить в начале и в конце... и она ... с самым ужасным интерфейсом, который можно придумать.

Но! Эта модель имеет некоторые неоспоримые преимущества. Например:

Хороший звук, скачивание в формате WAV, скачивание стемов, использование Fancy Mode, когда генерация занимает больше времени, но качество звука выше - High Quality Mode. Также имеет в своем арсенале хорошо работающую функцию Inpaint.

И самое интересное - это приложение умеет делать расширение До и После, причем с заданными временными параметрами.

Текущая версия модели - Melodia v2 Beta 6, она вышла в начале января. И звучит уже значительно лучше, чем всего пару месяцев назад. Примечательно то, что это все бесплатно. У ребят даже нет никакого прайса на сайте😊
👍 6
15:35
Я вам предлагаю самостоятельно попробовать функционал Sonauto, (напоминаю про ужасный интерфейс), а сейчас покажу, как сделать вступление и концовку для уже существующих песен. Причем бесплатно. И не прибегая к функциям DAW.

Представим задачу - есть песня, в которой (согласно нашему гениальному творческому замыслу) вступление должно занимать 10 сек.

И логичная концовка тоже должна быть 10 сек.

Или же, например, нам нужна новая концовка со словами на 20 сек. В Udio c этим придется повозиться на платном плане. Концовка - это то, на что уходит уж очень много времени.

1. Создаем песню, например, в Suno (автор текста поэтесса Вера Бутко).

Так как мы не прописали заранее хороший тег [extended intro], то никакого вступления нет, вокал начинается сразу с 3 сек. Концовки аж две сразу - все как любит Suno. Первая на 1:32. Общая длина песни составила 2:29. Кажется, получилась хорошая песня и даже с приятным вокалом, хотя и с «фирменным звуком» от Suno.

2. Загружаем песню в Sonauto, при этом алгоритм автоматически определяет текст песни. После этого получаем возможность редакции песни с помощью инструмента Extend & Edit.

3. Сначала займемся Intro.

Выберем направление Before (в начало песни). Ручной режим Manual Extend. Устанавливаем Extend Amount на 10s. Параметр Crop Amount отвечает за то, сколько секунд мы «захватываем» из оригинала. Прописываем [START] в поле текста и нажимаем пробел. Получаем вступление на нужную нам длительность 10s. Возможно дополнительно редактируем и ищем лучшее звучание с помощью функции Inpaint !

4. Outro делаем с такой же последовательностью только с направлением After (конец песни). Длительность 10 сек, начиная с 1:40 оригинальной песни. (10 сек. у нас добавились с новым вступлением). Итого длительность песни - 1:50.

5. Или делаем новую концовку Outro на 20 сек. c добавлением текста. Итого песня ровно 2 минуты. Причем, с первой же попытки то, что лично меня полностью устроило и к тому же Sonauto добавила логичный вокализ. Слушаем получившийся результат. И все это можно скачать в WAV или разделить на стемы.

Все примеры подобного эксперимента приведены ниже. Не обязательно слушать целиком, нас интересует разница в начале и в конце.

Надеюсь эти советы кому-то помогут в создании композиций, которые полностью соответствуют их творческому замыслу 😊🤝
👍 10
15:37
Оригинальная композиция от Suno
15:37
Добавление Intro. Длительность 10s в начале песни
🔥 5
15:39
Добавление Outro без слов. Длительность 10s конце песни.
15:40
Добавление Outro со словами. Длительность 20s в конце песни.
🔥 1
15:41
И лайфхак дня. Как скачать чужую песню в Suno

Песня в Suno имеет вид https://suno.com/song/1234-aaa-5678-bbb

Где 123... это буквенно-цифровой ID песни в библиотеке сайта (выделен жирным).

Достаточно вставить ID песни в следующий адрес https://cdn1.suno.ai/1234-aaa-5678-bbb.mp3

и откроется доступ к скачиванию композиции напрямую в формате mp3.
👍 16 👏 4
12 February 2025
AH
00:22
Suno: собираем речевой DS !

Генерация песни со своим голосом - самый удивительный результат с момента, как стало возможно использовать Upload Audio. Получилось это не сразу - с июля 2024 г. провел много экспериментов (L1, L2, L3) ... Примечательно, что McKinley H. - специалист в вокальных технологиях, познакомивший меня с RVC, тогда не знал о такой возможности Suno.

Я полагал, что в речевой DS (как и для RVC) нужно включить все фонемы, все регистры и все виды подачи (норм., придых, крик/ опора). Но уложить это в 60 сек. непросто: специальные фонетические тексты, где фонемы представлены согласно их статистики применения в реальной речи - очень длинные... Взял панграммы - предложения, включающие все буквы алфавита - это не совсем научно, но ... сработало.

Так и пользуюсь речевыми DS, кот. сделал по этому принципу. Возможно (надо тестить), этот подход можно улучшить, т.к. стали понятны некоторые особенности генерации вокала - он в Suno (в отличие от RVC) 3-х компонентный: тембр, интонация, артикуляция.
👍 9
00:27
Подробнее о компонентах + аналогия.

Тембр – "окраска"/ акустика голоса обусловлена физической конструкцией голосового аппарата (трахея, гортань, связки, резонаторы). Т.е. - геометрия и свойства "материалов". / В гитаре это корпус.

Интонация – звуковысотные особенности речи/ пения, формируемые связками: взятие, удержание и отпускание тона, вибрато, опевания - т.е. кривая Pitch. / В гитаре это колебания струн.

Артикуляция – формирование речи действиями языка, нёба, челюсти, губ. / В гитаре это способ извлечения - действия пальцев, медиатора и т.п.

Все три компонента (по сути, модели) создают ваш голос, но что заметнее? На первом месте, думаю, тембр. Хотя при обычном тембре может быть ярким интонирование/ "работа связок" и(или) артикуляция.

Нам важно чтобы Suno из речевого DS извлек только тембр. Предположим, что интонация и артикуляция, отвечающая за "слова" (включая и др. языки!), генерится отдельно и потом "оборачивается, окрашивается" тембром. Уже приводил такую аналогию: интонация/ манера = походка, тембр = одежда.

Если основа тембра в конструкции, то как "снять" её характеристики? Может кто-то замечал, как звукорежиссер/ дирижер проверяет акустику нового зала? В радиотехнике есть два способа снять характеристику объекта (получить отклик):

а) запустить короткий импульс (в теории он обладает широким спектром, т.е. содержит все частоты);

б) медленно изменять частоту генератора синуса в звуковом диапазоне (16Hz - 20kHz);

Звукорежиссер (если по-старинке) в зале делает хлопок в ладоши (как бы короткий импульс) и слушает отклик. Голосовыми связками издать щелчок (импульс) сложно, надежнее было бы пропеть весь диапазон - от самой низкой ноты до максимально высокой, но! Тестируя речевые/ вокальные DS, я заметил, что любое присутствие в наборе мелодических линий, фраз и явной ритмики сужает возможности речевого DS. Т.е. вредит, потому, что Suno "видит" в них "музыкальный смысл" и использует это как манеру, некую основу для генерации.

Я подготовил пошаговую инструкцию, как собрать речевой DS в Audacity (см. PDF)*. Для тех у кого нет особого опыта она может показаться сложной, но на практике на весь процесс достаточно 20-30 мин. Обратите внимание: при записи голоса не надо его искажать (басить, делать глухим или писклявым) - нужен естественный тембр.

* обновлен 12 февр. в 23:36
🔥 6 👍 3
00:34
Как будет (или не будет) работать речевой DS.

Вы загружаете свой DS в Upload Audio, вбиваете текст, задаете Style ...

1. В Style (и Lyrics) нельзя включать любые команды, относящиеся к голосу: Female/ Male Vocals/ Voice, Lounge/ Resonant Singer, Vocaloid, Choir и т.п. В этом случае система применит голос(а) из своей базы.

2. Suno применит свой голос (или сделает микс с голосом из базы), если ваш явно не подходит к заданному Style. Например, у вас грубый, хриплый, низкий голос, а стиль предполагает нежное пение в высоком регистре.

3. Даже применяя ваш голос, система его модифицирует (по сути это ресинтез) - может расширится диапазон, появятся мелизмы, кот. вам не свойственны. Suno как бы покажет вам: "Вот так вы могли бы петь, если бы серьезнее занимались вокалом" 😀. Правда, проф. вокалиста может наоборот "сузить" - т.е. нивелировать некоторые персональные особенности 😢.

4. Suno исправит заметные особенности речи (если они есть) - шепелявость, картавость, ошибки произношения, т.к. речь синтезируется с помощью среднестатистической модели конкретного языка.

Иными словами, система "следит" за соответствием тембра, манеры заданному Style. Кстати, и с RVC замена тембра в треке с ярким вокалом (например, П.Гагариной/ M.Carey или I.Gillan/ Г.Лепса) не сделает его похожим на ваше пение, если у вас обычный тембр. В общем, нет 100% гарантии, что в генерации голос будет похож на ваш, но попробовать стоит. Я бы рекомендовал сделать несколько DS и протестить, как они работают.

Речевой DS - не единственный способ сгенерить песню в Suno со своим голосом, но он, пожалуй, самый универсальный, т.к. позволяет (все-таки) задавать Style.

P.S. 1. Suno c Upload Audio не всегда соблюдает структуру Lyrics, самое печальное - "скомканный" 1-й куплет. Для страховки я перед ним обычно прописываю: [Instrumental Intro] [Bridge] Мммммм, Мммммм ... или [Chorus] целиком - это потом можно отрезать в DAW.

2. Делая свои (и не свои) первые речевые DS, я еще не знал о 3-х компонентном синтезе вокала в Suno. Вполне возможно, что и нет необходимости в 60-секундном наборе. Может и 15 сек. хватит для "передачи" тембра. Если так, то полезная часть песни будет длиннее - надо тестировать.

3. У меня небольшой опыт с v4, но, кажется, в ней система меньше, чем в v3.5, следует тому, что загружено в Upload Audio. Соответственно, и голос похож меньше.

4. Детские речевые DS у меня практически не работали (исключение - случаи, когда, видимо, детский принимался системой за женский). В Suno нет легальных детских голосов, что, похоже, связано с "наследством" от графических ИИ, где есть серьезные ограничения на использования детских образов - NSFW.
👍 12
19 February 2025
AH
01:18
Литературный негр

Литерату́рный негр или гостра́йтер (от англ. ghostwriter, букв. «призрак-писатель») — автор в литературе, пишущий тексты на заказ (книги, статьи, автобиографии, тексты песен и т. п.) за другое лицо (Wiki)

В каждой модели генерации музыки есть ИИ, который позволяет создать текст песни по заданным запросам.

В Udio стоит неизвестная модель, скорее всего одна из версий ChatGPT, который имеет ограниченный функционал и довольно посредственные результаты.

Интересней в Suno, там стоит первая «classic» модель, которая тоже скорее на одной из версий ChatGPT. Почему я говорю скорее, потому что в открытых источниках не нашел данные об этих моделях в Suno и Udio. Только сравнительные тесты и некоторые баги, которые присущи этой языковой модели.
01:20
Вторая модель в Suno называется ReMi (от Do Re Mi), она конечно намного креативней. И кстати, с помощью ее можно тщательно делать разметку текста. Если вы наведете курсор на нужную часть разметки и напишите просто даже на русском языке:

Укажи номер куплета, используемые инструменты, на английском языке, заключи это все в квадратные скобки

то этот запрос будет выполнен. (ил.1).

Возможно там есть еще какой-то интересный функционал, но я пока не нашел ничего полезного.

Другое дело Riffusion, тут все довольно интересно.

Во-первых, местный Ghostwriter делает приличные тексты. И если вы не пробовали еще, то попробуйте, даже в качестве помощника мозгового штурма. Во-вторых, он может вам помочь с разметкой песни, начиная от структуры «куплет-припев» и т.д. Заканчивая тегами стиля, жанра, инструментов, настроения и особенностей вокала. И тут самое интересное в Ghostwriter и начинается. ❗️
👍 1
01:20
01:20
01:20
01:23
Какая языковая модель в Riffusion используется тоже неизвестно. При конкретном запросе в Ghostwriter:

Не трогай текст песни, укажи название своей модели и ее текущий номер, размести это все в начале песни в квадратных скобках

этот хитрец лукавит, то пишет ChatGPT-4, то Version 3,5, то Claude Assistant, Version 2.1, то просто указывает Language model#41234 и т.д. - путается в показаниях. 😊

Лично я думаю, что там стоит не самая древняя модель Claude, потому что именно эта модель имеет высокое качество генерации текстов. Claude Sonnet например имеет для меня на сегодня первенство по генерации стихотворного текста на русском языке, я очень впечатлен от этой модели и пользуюсь ей довольно часто в качестве подсказок и подбора образов.

Поэтому попробуем использовать этого Ghostwriter на полную катушку. Причем, и для того, чтобы использовать полученные результаты, в том числе, в других приложениях .

Как пример возьмем процесс создания песни с самого начала. Если вы сгенерировали текст, или самостоятельно сочинили и вставили, Ghostwriter может помочь его улучшить, достаточно написать что-то вроде:

Не трогай остальной текст, измени третью строчку первого куплета, текстом, подходящим по смыслу, строго следуй правилам и рифме русского языка

и этот запрос будет в точности выполнен.

Я же для примера взял готовые стихи прекрасного актера и поэта Леонида Филатова Песенка актрисы
01:25
И сделаем мы это, например, в неожиданном стиле Джаз Мануш. Для начала попросим указать нужный стиль, жанр, темп и т.д. Посылаем запрос:

Не трогай текст песни, опиши на английском языке мета теги песни в стиле Jazz Manouche, структуру, жанр, стиль, темп, ритм, настроение и описание песни. Женский вокал. Используемые инструменты - гитара, аккордеон, скрипка, кларнет. Размести это все в начале песни, заключи в квадратные скобки
.

Готово. (ил.2). Поехали дальше. Следующий запрос по разметке текста:

Не трогай строчки текста и теги в квадратных скобках, опиши теги структуры песни такие как [Instrumental Intro], [Outro], [verse], [hook], [bridge] и так далее на английском языке для исполнения в стиле песни Jazz Manouche, укажи используемые инструменты, темп, размести теги у каждого элемента песни в квадратных скобках
.

Готово.

Пример полученной генерации разметки текста в Riffusion с помощью функции "Литературный негр" этой песни можно детально посмотреть.
[Genre: Jazz Manouche / Gypsy Jazz
Style: Melancholic nostalgic chanson with swing elements
Tempo: Moderate 110-120 BPM
Time signature: 4/4
Mood: Bittersweet, ironic, contemplative
Instruments: Acoustic guitar, accordion, violin, clarinet
Vocals: Female voice, expressive with theatrical delivery
Structure: 4 verses with consistent pattern, each verse contrasting stage life vs real life
Description: A thoughtful Jazz Manouche arrangement of a Russian romance that explores the duality between theatrical and real life. The song carries a melancholic yet slightly humorous tone, perfect for intimate cabaret performances.]

[Instrumental Intro: 8 bars]
[Acoustic guitar establishing "la pompe" rhythm, violin and clarinet trading melodic phrases, tempo: 115 BPM]

[Verse 1]
Чем больше
Я думаю о счастье,
Тем горше
Мне хочется рыдать…
На сцене
По мне бушуют страсти,
А в жизни
Их что-то не видать!..

[Instrumental Interlude 1: 4 bars]
[Violin solo with accordion accompaniment, maintaining swing feel]

[Verse 2]
Чем больше
Я странствую по свету,
Тем горше
Душевный неуют…
На сцене
Мне подают карету,
А в жизни —
Руки не подают!..

[Instrumental Interlude 2: 4 bars]
[Clarinet lead with expressive runs, guitar "la pompe" prominent]

[Verse 3]
Чем больше
Я чту любовь и верность,
Тем горше
Мне мстит за это жизнь.
На сцене
Героев мучит ревность,
А в жизни
Их мучит ревматизм!..

[Instrumental Interlude 3: 4 bars]
[Accordion and violin duet, building intensity]

[Verse 4]
Чем больше
Я пробую влюбиться,
Тем горше
Отчаянье в груди…
На сцене
От рыцарей не скрыться,
А в жизни
Попробуй их найди!..

[Outro: 8 bars]
[All instruments, gradual diminuendo, final guitar and violin flourish]

[Performance Notes:
- Maintain traditional "la pompe" rhythm guitar throughout
- Use rubato expressively during verse beginnings
- Allow for theatrical pauses between verses
- Emphasize dynamic contrasts between soft and intense passages
- Add typical Jazz Manouche ornamentations and chromatic runs
- Keep steady swing feel at 110-120 BPM]
👍 7
01:27
Что еще можно сделать? А мы теперь попросим указать промпт для данной песни:

Не трогай текст песни и теги в квадратных скобках. дай мне описание песни в стиле Jazz Manouche, веселое настроение, разделенное запятыми, в 200 символов, включая пробелы для подсказки песни. Опиши жанр, стиль, настроение, инструменты (гитара, аккордеон, скрипка, кларнет), настроение и характеристики. Опиши характеристики женского вокала. Заключи в квадратные скобки. Размести в конце песни, напиши на английском языке.

Результат
в ил.3. Почему 200 символов? Чтобы пробовать это теперь и в Suno.

У нас есть теперь максимальный Song Details для песни. Разумеется, для каждой модели подойдет только свое, например, Suno имеет ограничение в символах, и общий запрос я собрал из подсказок нашего литературного негра:

Jazz Manouche, Female vocal, acoustic guitar, accordion, violin, clarinet, melodic, gypsy jazz ballad, swinging melancholic style, theatrical vocals with dramatic contrasts, Django-inspired guitar
.

А вот Sonauto требует четких тегов из списка в данном случае (хотя там есть отдельный режим, но это уже тема другого разговора).

Как использовать эти данные вы можете придумать сами, задавать разные запросы, тонко настраивать композицию. Тут большой простор для фантазии. Например, вы можете указать референс какой-то определенной песни или альбома любимого исполнителя. Например, для одной песни я попробовал "The Scorpions" с их песней про «Ветер перемен» (результат ил.4). Наш литературный негр указал темп, стиль, год и т.д.

Я же предлагаю послушать получившиеся результаты в слепом прослушивании, оценить не столько мелодии (это дело вкуса), но вокал, звук и общую согласованность. Разные приложения подходят и для разной музыки. Вы думаете в Suno V4 есть приличное звучание скрипки с фортепиано и кахоном? Нет, и не было и в ранних версиях. Зато она отлично справляется с электронными жанрами или с гитарой. В конце будут результаты этого "эксперимента."

Все музыкальные примеры как есть, без редакции - только нормализация громкости. Все сделаны в рамках иллюстрации эксперимента, без детальной обработки.

Вот примеры генерации Слепое прослушивание.
👍 7 1
AH
01:51
Результаты Слепого прослушивания
1. Riffusion v. FUZZ-0.8
Автоматический режим. Именно он выдал наиболее приемлемый результат без акцента. Русский язык, акцент и соблюдение ударений – основная проблема у Риффузии.

2. Suno v.4.0
Интересный результат в стиле Suno с хорошим звуком.

3. Udio v.1.5
Неожиданная версия, видимо текст показался ей «грустненьким». Я не стал настаивать.

4. Sonauto v. Melodia v2 Beta 6. ❌
Не оказалось ни одного результата по акценту русского языка, который я бы счел приемлемым, хотя были интересные мелодии, которые можно развить в том же Udio. Sonauto пока выбывает из данного теста. Но поверьте, у этой нейросети есть очень серьезные преимущества, особенно на английском языке. И она умеет то, что не умеют другие. Это будет, возможно, тема отдельного разговора. Рекомендую внимательно присмотреться к возможностям этой модели.
👍 4
01:52
И очередной лайфхак дня.

В Udio при наборе текста при выбора знака слэш (косая черта вправо - " / ") появится дополнительная функция, которая помогает при разметке текста.

Быстро и удобно можно разметить текст песни с помощью [Verse] [Chorus] [Outro] [Choir] [Instrumental Bridge] и т.д.

Всего там встроено 28 тегов для разметки текста. Довольно удобно.
👍 8
24 February 2025
AH
12:31
Suno: собираем инструментальный DS !

На мой взгляд, такой DS самый простой в сборке и самый предсказуемый в поведении (в чем неоднократно убеждался - см. #2). Особенно, если он полный, однородный и прозрачный. Это не какие-то общеприменимые термины, поэтому требуют пояснений:

Полный - значит в нем представлены все инструменты, характерные для стиля: бас, ударные, ритм-секция, сольный инструмент. Т.е. заполнен весь диапазон (низкие, средние, высокие) основных тонов инструментов. К примеру, для бас-гитары это ~40... 400 Hz, для скрипки ~200... 3800 Hz. Если так, то Suno будет меньше добавлять от себя.

Однородный - т.е. нет "винегрета" и набор инструментов соответствует типичному набору конкретного стиля.

Прозрачный - аранжировка написана грамотно - ничего лишнего, инструменты "не мешают друг другу", а все их партии вместе образуют четкую ритмическую фактуру. Спектральная картинка в этом случае будет с хорошо различимыми, а не размытыми элементами.
👍 2
12:32
Чтобы собрать инструментальный DS, нужно найти минусовку в максимально хорошем качестве* (идеально это - студийный не отмастеренный** микс). Конечно, иногда нет другого выхода, как сделать split (vocal/ instrum) готовой песни, но качество генерации будет хуже.

Затем определить темп***, загрузить в DAW, поставить по сетке.

Желательно в 60 сек. "воткнуть" все ценное, что есть в минусе. Как правило, это 3-4 ключевые фактуры: Verse, Chorus, Bridge ("яма", разрядка), Solo (проигрыш). Хотя, порой, и 2-х достаточно: аккомпанемент под вокал, соло - система сама и упростит (разрядит) и усложнит (насытит) исходный материал для развития и достижения "задуманной ей" драматургии песни.

* когда-то у меня был сборник из 40 тыс. (с дублями) минусов, но с переездами, сменой ПК ... утрачен. Полагаю, у кого-то такие сборники есть.

** чем более сжат, скомпрессирован трек, тем сложнее системе его "разбирать", особенно, если фактура плотная (качество генераций, при использовании Upload Audio, и так ниже, чем в обычном режиме). В идеале, на мой взгляд, нужен "слегка" отмастеренный трек, с нормализацией -1.0 dB и RMS не более -16 dB.

*** случалось делать DS из старых записей. Если темп слегка "гуляет" (как в любом живом исполнении, когда не под drum-машинку), то выравнивал (сжимал/ растягивал) по сетке. Если есть явная агогика (ускорение/ замедление) - норма для таких жанров, как романс, народная песня... то просто следил за стыками фрагментов, чтобы звучало естественно.

Начать можно и не по сетке, но обрезать лучше по тактовой черте или доле (пусть 1/4) с небольшим (10 ms) fade'ом.

Стыковки фрагментов необходимо делать также с небольшим cross-fade'ом и проверять на слух, что не нарушается музыкальная логика.
👍 4
12:34
Рис. Сборка DS 130DlgIn1

Этот полный DS собран из минуса моей песни "Долги" (CD, "Место под солнцем", Vocaloid/ Leon, 2006). Сам трек с каким-то смешением стилей Punk, Club, Folk. И к однородному, прозрачному его вряд ли можно отнести: 2 баса, 2 DrumKits (Synth, Real), жалейка, баян, синты, включая Yamaha VL (Physical Modeling), на кот. записали зашумленный, хрипящий звук. Я "пожадничал" и включил в DS почти все - не только части с разной фактурой (Verse, Chorus, Bridge...), но и инструменты. Причем, даже "куплет" я составил из двух - 1-го (он по-проще) и 2-го (он насыщеннее)*.

Резал/клеил все в Reaper - в Audacity эти операции более трудоемкие, особенно, когда нужны fade'ы. (Или я еще плохо с ним знаком).

Если интересно, можете тестировать/ использовать этот DS - он в 320 kbps, дает неплохие результаты (и с разными гендерами, если это указывать в Style).

* на практике на самом деле нет необходимости в таких ухищрениях. Иногда вырезка цельного фрагмента (Verse, Chorus, Bridge) - вполне решает задачу.
12:35
DS 130DlgIn1 ("Долги")
12:37
Отдельный вопрос - защита (отказ) Suno от работы с известными* треками. Suno распознает текст и мелодию. Работает это на некотором интервале - вот 2 строчки/ такта - ОК, а 4 уже нет. Скажем, соло Р.Блэкмора из "Smoke On The Water" и даже простой гитарный рифф Криса Ри из "On The Beach" система не пропускает. И уж точно не стоит загружать в Upload Audio целиком композицию и резать ее в Suno.

Обойти это можно перепутав фрагменты - дать Suno весь Verse/ Chorus, но так, например, когда 1-я и 2-я строки из 2-го Verse, затем 3-я и 4-я из 1-го и т.д. Музыкальная логика, гармония не нарушаются, а текст уже не соответствует оригиналу. Тоже самое и с сольными партиями. Конечно, из-за такт надо учесть - т.е. перевести склейку немного влево, чтобы слова (мелодия) не обрывались.

* насчет юридической и этической сторон такие соображения:
1) это в любом случае будут делать;
2) ИИ генераторы музыки существенно изменяют исходный материал;
3) если я подобное делаю для себя, без тиражирования, то это моё дело. Мне кажется, рекламный щит с Б.Спирс/ С.Сталоне с рекламой шуруповёрта или запись на корпоратив известной песни со своими словами - нарушения намного серьезнее.

Преимущества инструментального DS: сохранение стиля, темпа, тональности, возможность задать гендер, и ... не нарушая общий характер, добавить новый инструмент, особенно, если DS не полный.

Suno c Upload Audio не всегда соблюдает структуру и "комкает" Lyrics. Поэтому я часто в самом начале вставляю: [Instrumental Intro] [Bridge] Мммммм, Мммммм или целиком [Chorus] - брак легко отрезать в DAW при компоновке песни.

Вот еще несколько инструментальных DS для тестирования/ использования. В начале имени DS указан темп (bpm) для удобства.
👍 2 🔥 2
12:39
полный DS, песня "Место под солнцем" из того же альбома.
🔥 1
12:39
неполный DS, соло сакс. (Н.Панченко), из этой же песни.
12:40
неполный DS, партия фо-но, использ. в песне "Странная девушка" v2.1
12:42
Интересная находка в процессе тестирования DS 130DlgIn1- если в Style только: Male vocals, Brutal voice, то система выбирает низкий, грубый голос, кот. раньше мне не встречался. Причем, этот prompt сработал и с др. инстр. DS:

"Долги" / А.Устинов
"On The Beach" / Chris Rea*
"Сибирские морозы" / В.Кузьмин
"Smoke on The Water" / R.Blackmore
"Я - то, что надо" / В.Сюткин **

* кстати, хороший пример полного, однородного и прозрачного DS, точнее, аранжировки из кот. он собран. Я сделал много генераций на его основе, в частности эти (см. #2).

**
полная версия песни на этом DS.

Так что если хочется, чтобы в "вашей песне" соло "сыграл" как-бы D.Gilmour, C.Santana, G.Benson или J.Page, то это возможно 😀.
12:43
Фрагм., Instr. DS, Style: Male vocals, Brutal voice. "Долги", "On The Beach", "Сибирские морозы", "Smoke on The Water", "Я - то, что надо"
🔥 1
12:44
P.S. Как измерить RMS в Audacity (3.7.0). Выделяем 5-15 сек (в самом громком месте трека), далее все по пп.
👍 4
28 February 2025
AH
01:53
"Черный кот" и "Чертова дюжина"

Всем привет! На связи Борис. Сегодня опять о Sonauto - слов меньше, а песен больше. Речь исключительно об иностранных языках. Русского, похоже, нет - или я пока не нашел.

Музыкальные фрагменты ниже приведены из уважения к известным артистам. Многие их песни знаю наизусть и слушаю до сих пор. Все примеры созданы, чтобы показать возможности Sonauto, а как вы решите их использовать - на вашей совести.

ИИ технологии развиваются вне зависимости от наших предпочтений и желаний. Создание "новых песен" известных исполнителей я считаю не кощунством, а исключительно уважением к их таланту, к работам, имеющим мировое признание. Для меня, например, услышать голос Долорес О’Риордан, дорогого стоит.
👍 1
01:55
О новшествах в Sonauto*. На мой взгляд, стиль сайта - «вырви глаз», а интерфейс... У них просто другая логика работы с музыкальными файлами (в сравнении с Suno, Udio и Riffusion) ... Довольно часто зависает - приходится обновлять страницу.

Главное об интерфейсе – все новые песни создаются в рамках нового проекта во вкладке Make Music. В рамках проекта вы можете создавать песни, используя три инструмента, это:

New prompt,
Retry
,
Variations
.

Как только вы начинаете создавать новую песню, система создает новый проект - к этой логике надо привыкнуть.

* Напомню, эту нейросеть создали два основателя из Калифорнии, она входит в известный стартап Ycombinator, абсолютно бесплатна и находится в стадии Бета... подход Sonauto во многом отличается от тройки Suno, Udio и Riffusion.

В Sonauto нет цензуры. Более того, в ней есть модели известных исполнителей. О чем собственно этот пост.
👍 3
01:56
За последнее время у Sonauto было несколько нововведений. Я уже приводил пример 878 тегов жанра со страницы Suno Explore (см. Гуглдок). Но в Суно это скорее любопытно, чем полезно.

А вот Sonauto недавно представила визуальную карту тегов и список жанров и стилей, которые используются в их модели. И это вполне рабочий инструмент. Можно посмотреть в виде карты, можно скачать TXT файл - я собрал все это в Гуглдок 3425 тега жанров и стилей Sonauto , чтобы иметь под рукой.

Итак, там 3425 тега жанров и стилей. И в Sonauto в режиме Compose можно ввести только их. Через запятую и именно так, как они указаны в списке. Например нельзя написать тег Nu jazz (такой тег не существует), а только Nu-jazz.

Так чего же нет в этом списке? А в этом списке нет тегов Исполнителей. Но по факту они есть и они работают!
🔥 3
01:59
Нейросети генерации изображений используют какие-либо обученные модели. Это может быть модель образа конкретного человек, стиля художника, визуального стиля и т.д. Мне кажется, в генерации музыки использована такая же система моделей.

Для генерации конкретного исполнителя, вам нужно ввести его тег (название группы или имя) в режиме Compose и нажать запятую. Если такой тег есть, он закрепится в строке Compose. И вам остается добавить остальные теги этого исполнителя.

Например, можно ввести тег "Queen", дополнить остальными тегами для этой группы. А если вы помните, то все теги музыкальные нейросети берут с базы данных сайта Rateyoumusic (и к тому же добавите теги конкретного альбома и года), то вы получите точную копию стиля и характеристик группы "Queen" и голос Фаруха Булсара, который знает весь мир. Например, полный промпт альбома «A Night at the Opera» будет следующим:

Queen, 1970s, Hard Rock, Pop Rock, Glam Rock, Art Rock, Rock, Progressive Rock, Music Hall, male vocalist, eclectic, melodic, epic, progressive, passionate, playful, triumphant, anthemic, lush, complex, energetic, romantic, bittersweet, uplifting, poetic, humorous

и вы получите новую песню.

А вот в Udio в ручном режиме этот промпт не пройдет. Будет ошибка генерации. Так как система Udio понимает, что должна вам выдать голос и стиль точно Queen и внутренняя цензура не пропустит такое. Как только в Udio вы видите ошибку генерации в ручном режиме, значит вы очень близко подошли к полному промпту какого-либо исполнителя. И тут или включать автоматический режим, или менять теги.

Повторю - в Sonauto нет цензуры. В том числе по текстам.
👍 4
01:59
При чем здесь Черный кот, спросите вы? Мне требовался пример для иллюстрации работы нейросети... я вспомнил, что читал, что песне про «Черного кота» (Ю.Саульский, М.Танич) исполнилось ровно 60 лет... И каждый, от мала до велика, знает и поет эту песню. Поэтому я и решил использовать перевод, который нашел в интернете.

В качестве примера приведены 2 куплета и 2 припева песни про «Черного кота». Перевод далек от совершенства - носитель языка сказал, что это ужасный перевод и сделан не носителем языка. На самом деле это просто примеры для демонстрации технологии. Знатоки и носители разных языков могут попробовать и сделать свои варианты - в конце концов это бесплатно и интересно.
👍 3
02:01
Все песни без редакции. И хотя в Sonauto генерация длительностью ровно 1:35, зато потом ее можно расширить как вперед, так и назад. Сделать вступление или концовку на нужное время (об этом уже писал). Скачать можно только в форматах OGG или WAV.

Песен здесь ровно чертова дюжина, раз мы говорим о черных котах. Это лишь малая часть исполнителей, ярких представителей своего жанра, которых я выбрал для примеров. Каждый найдет, думаю, стиль и жанр, который он точно знает, и сравнит с оригиналом. Какие-то получились удачнее, какие-то - нет. Но, думаю, вы согласитесь, что в Sunauto на данный момент все нормально с мелодикой. Модели постоянно пополняются, готового списка, конечно, нет, поэтому все методом подбора. Например AC/DC еще "не завезли", а я был бы не против послушать их "новую песню" 😊.

Сначала песни на английском👇
👍 5
AH
04:07
🔥 8 2
04:07
Испанский, итальянский, немецкий языки. Интересно, что на французском есть модели как Сержа Генсбура, так и Джейн Биркин. Поэтому я не смог удержаться, чтобы не воссоздать их совместный дуэт. 👇
04:08
И лайфхак дня. Яйца в аэрогриле можно сварить вкрутую ровно за 13 минут при температуре 160 градусов. Ой, извините! Не тот лайфхак. Хотя тоже нужный! 😊

Если вы пользуетесь Bandlab, то, возможно, вам интересно будет попробовать мобильную версию приложения с сайта 4PDA - там есть версии с разблокированными возможностями Pro.

Важное - модификации не работают с гугл аккаунтами. Но вы всегда можете создать новую учетную запись через компьютер, использовав обычную почту. Создать новый проект, потом зайти с телефона и работать с ним.

... разблокированы функции интенсивности и варианты Пространство, Кинематографичность и т.д. для быстрого ИИ-мастеринга.
👍 6 👏 2 😁 2
2 March 2025
AH
19:40
Sonauto: а на русском споёшь?

Борис пару дней назад сомневался, правда, в тот же вечер прислал пример ("Zara_BC"). Я Sonauto пробовал еще пару мес. назад вкупе с 10-й др. сервисов и как-то проскочил. И вот 28 февр. решил посмотреть подробнее.

В примерах поразил звук - тарелки чистые и голос не хорусит (как в Suno)! Скачал десяток в WAV: 44,1 kHz 16 bit (1411 kbps), полоса до 20 kHz, RMS -17... -14.2 dB, в паузах -55 dB (шум студийного тракта), панорама - ОК, т.е. по сути качество Audio CD - см. трек Good_Frg.

Начал пробовать на русском - ужас. То нет вокала, то грязный. Какой стиль не ставишь - на выходе ближе к Heavy Metal, может и В.Кипелов/ "Ария". Косяки М/Ж, был и чужой текст - какие-то "ошмётки", видимо из исходника - см. трек BadRu_Frg.

Потом вспомнил давний опыт (~2005), когда надо было заставить англо-поющего робота (Vocaloid/ Leon) спеть на русском - см. трек Yest_Tolko_Mig. Тогда в первый раз столкнулся с тем, что спеть без акцента, используя англ. фонемы, нельзя. Но... таки решил попробовать.
👍 2 1
19:41
Трек от Бориса
19:41
Примеры качества звука
👏 2
19:42
Генер. на русс. Styles: 1) "bossa nova, female vocalist, acoustic guitar", 2) "funk rock, male vocalist", 3) "funk, jazz-funk, male vocalist"
19:43
Vocaloid/ Leon (~2005)
19:45
Есть неплохой сайт для транслита - взял свой тестовый текст и ... Результаты интересные и рабочие (в некотором смыле) - может кто-то по-старше помнит, как у нас любили Анне Вески, Тыниса Мяги, Анну Герман, Карела Готта? Легкий акцент придавал их исполнению на русском особый шарм. Попробовал несколько Styles. Местами дефекты очень большие. Беда в том, что задать ударение не получилось, ни заглАвными буквами, ни аку́том (диакритический знак) - см. треки. Да и соблюдение Styles, мягко говоря, далеко от желаемого.
👍 2
19:46
Style: "swing, easy listening, 1950s, vocal jazz, jazz pop, traditional pop, big band"
19:46
Style: "bossa nova, female vocalist, acoustic guitar"
19:46
Style: "funk rock, male vocalist"
19:47
Style: "bolero, romantic, 2020s, classical crossover, latin pop, traditional pop, male vocalist"
🔥 2
19:49
Видно, что в Sonauto, как и в Suno, один и тот же текст по-разному отрабатывается в разных моделях. Но какие-то ошибки кажутся системными, например "ц" в слове цель (cel') или "ч" в слове включаем (vkljuchaem). В Vocaloid все-таки были фонемы и если что-то не звучало, так из-за того, что каких-то звуков в английском вообще нет ("ы", "ль"). Слегка "побороть" этот эффект удалось разбиением (вручную) всего текста на слоги:

Vse ho tjat sni mat' ki no - ne vo pros.
Kazh dyj v je tom mi re - re zhis sjor i boss.

Но, в конце концов, одни и те же символы произносятся по-разному (в парОход и пОчта разные "О"), а транслит - это не перевод в фонемы. Фонетическая транскрипция с кириллицей ( фс’э хат’`ат сн’им`ат’ к’ин`о н’э вапр`ос ... ) - работает, но тоже с ошибками.

При стандартной фонетической транскрипции: (ˈfsʲɵ xɐˈtʲæt sʲnʲɪˈmatʲ kʲɪˈno ˈnʲe vɐˈpros ...) - Sonauto поёт, но что-то странное 😀.
---------------------

Не мог удержаться, чтобы не попробовать известных артистов (под влиянием Бориса). Все-таки воспринимаю это как баловство, хотя, кто знает, может соединение прекрасных стихов с мастерским вокалом и выверенным стилем, выдаст у кого-то новый шедевр на радость фанатам? Время покажет, или уже показывает? См. трек "Yesterday_Frg".
👍 3
19:57
Andrea Bocelli, Chris Rea, Demis Roussos, Queen, Sting.
🔥 2
20:01
Выводы (на 02 марта 2025):

Звук - профессиональный (конечно, от исходников тоже зависит). Хотя выразительность вокала, порой, кажется чрезмерной (как в Udio после Suno). Корректировать АЧХ, применять Exciter (как в Suno), нет большой необходимости - чаще достаточно лишь чуть поджать до RMS -12... -9 dB.

К интерфейсу за 2-3 часа привыкаешь. Есть глюки (т.е. что-то еще "не допилили"), например, при загрузке в Upload Audio открывается новое окно и "висит", хотя в пред. странице уже все ОК.

Sonauto русский понимает - при загрузке песни в Upload вокал на русском распознается. Но синтез речи, видимо, устроен иначе. Система мульти-язычная, включает и наши образцы (модели), т.ч. скорее всего в будущем вокал на русском станет лучше. Сейчас можно пробовать русский - результат зависит от Style, а процесс похож на рулетку. Можно пробовать транслитерацию Ru -> En (тоже лотерея) и (!) ... обязательно прописывать букву Ё 😀.

Кажется, Sonauto хуже, чем Suno, справляется с "сочинением" мелодии в "увязке" со структурой песни. Повторяемость Verse/ Chorus еще не анализировал.

По Extend & Edit (Before/ After), Inpaint и пр. - позже (надо изучать).

P.S. 1. Сделал сортированный список тегов (интересное чтиво!). Думаю, сам список достаточно стандартный и используется в разных системах. Правда в Sonauto в Style требуется четкое написание, например, прямо так: "русский дрилл (russian drill)" или"қазақша рэп (kazakh rap)".

2. Спросили об оперных голосах (сопрано). Да, они там есть: C.Bartoli, M.Caballé, R.Fleming, S.Brightman, как и др. артисты.

3. При загрузке в DAW mp3, ogg файла автоматически выполняется конвертация в WAV. Т.ч. зачем лишние преобразования и потеря качества? Скачка в ogg нежелательна, там лишь 86-107 kbps / 48 kHz. Лучше скачать WAV, поработать в Audacity и сохранить в mp3 320 kbps: Клик по треку, потом по пп. 1, 2, 3 ...
👍 5 🔥 3
20:01
👍 5
6 March 2025
AH
03:42
Suno: собираем вокальный DS !

Вокальный* DS включает голос, может дополняться Hi-Hat для задания ритма и аккордом/ нотой для задания тональности. Цели:

а) получить трек с голосом в DS,
б) получить аранжировку к мелодии в DS.

Летом 24-го по этой теме провел ряд экспериментов с анализом - L1, L2, L3.

* см. посты по речевому и инструментальному DS.

Suno в вокале поправляет ритмику, выполняет autotune, расширяет исходный диапазон и набор исполнительских приёмов - например, добавит шепот/ крик, чего в DS не было. Можно что-то "промычать" мимо нот и ритма, можно и без добавления Hi-Hat. Но надо иметь ввиду, что Suno в DS "пытается" определить и темп, и тональность (которые, обычно, сохраняются в генерации). Поэтому Hi-Hat желателен. Если у вас в DS Verse + Chorus, а в Lyrics тот же текст, то Suno будет стараться сохранить и мелодию - см. L4. В общем, Suno будет брать за основу то, что в DS.

Мне показалось, что чем более голос проработан/ "поставлен", тем больше шансов на его сохранение в генерации.
🔥 3
03:42
Обработка вокала - примерно так же, как и для речевого DS (см. PDF). Разница в том, что записать голос лучше под метроном (или фонограмму):

- если Exciter, то минимальный,
- если Autotune, то не жесткий,
- нормализовать до уровня в -3...-2 dB.

Для задания темпа/ ритма можно использовать и DrumLoop, соответствующего стиля, но это будет сужать возможности задания стиля в Suno. Поэтому лучше к вокалу добавить Hi-Hat (по 1/4, 1/2). Причем, следует задать уровень -15...-12 dB и немного сместить по панораме (+- 20%).

Для задания тональности лучше использовать аккорд фортепиано в начале DS с мягким извлечением, средним удержанием (1/4 ... 1/8), без обращений, арпеджирования и sustain. Также задать уровень -15...-12 dB и немного сместить по панораме (+- 20%, в противоположную от Hi-Hat сторону).

Можно пытаться задать тональность басом - одной нотой. Но Suno чаще считает одну ноту доминантой, а не тоникой. Т.ч. для ля-минора(мажора), следует прописывать ноту Ми.

Почему Hi-Hat и фортепиано? Потому, что эти тембры легче всего "вписать" в большинство стилей и с уменьшенным уровнем они вряд ли нарушат общую картину.

Для сборки своего DS вы можете взять песню, кот. хорошо знаете. Чем лучше вы покажете свой голос - диапазон, подача, тем больше у Suno будет "материала" для генерации.

В общем:
1. Спели под метроном;
2. Обработали голос;
3. Добавили Hi-Hat (и аккорд/ ноту).
4. Посмотрели, что укладываетесь в 60 сек. (если нет, то можно отрезать часть Verse/ Chorus, но не нарушая ритмику и "по сетке").
5. Сохранили в mp3 / stereo / 320 kbps.
Ваш вокальный DS - ГОТОВ!

Возможно вам пригодятся петли Hi-Hat в разных темпах - вы можете взять ближайший и растянуть/ сжать его в DAW под нужный вам.
👍 3 1
03:43
Чтобы не "засорять эфир" своим голосом я взял разрешение у друзей - вокалистов-любителей на использование их треков для тестов. Всего 3 DS - два женских, один - мужской. Все DS длительностью ~60 сек. В примерах - сначала фрагмент DS (~ 15 сек.), затем фрагменты генераций. Фортепиано не добавлял - только Hi-Hat. Везде прекрасно определились и сохранились, как темп, так и тональность.

Голоса, как всегда у Suno v3.5 - хорусят, местами есть подголоски, иногда - частичная смена гендера или микс. Выход годных генераций ~50%.

Стоит иметь ввиду, что вокальные DS достаточно чувствительны к Style. Если Suno "покажется", что заданный Style не соответствует "материалу" DS (например, в DS нежный женский голос, а стиль Heavy Metal), то система применит голос из своей базы. Или темп не тот ... Даже Lyrics имеет влияние.

Как и в речевом DS, в вокальном в Style (и Lyrics) нельзя включать любые команды, относящиеся к голосу: Female/ Male Vocals/ Voice, Lounge/ Resonant Singer, Vocaloid, Choir и т.п. В этом случае система применит голос(а) из своей базы.

Suno c DS не всегда соблюдает структуру Lyrics, для страховки я в самом начале прописываю: [Instrumental Intro] [Bridge] Мммммм, Мммммм ... или [Chorus] целиком - потом это можно отрезать в DAW.

Вокальные DS могут быть полезны авторам-исполнителям для создание "своих" песен. Пусть у вас есть текст и небольшие намётки мелодии - вы что-то напели, ... сгенерили. Затем сделали split (voc/ instrum) и спели под минус. Вуаля! - вот вам ваша* новая песня.

* формально автор Suno, даже если вы на платном аккаунте, но ... вы же знаете, кто автор 😀
👍 3 🔥 3
03:44
DS: 124 bpm, Em. Style: 1)2)3) - Acoustic ballad, Warm, Atmosphere, Acoustic guitar solo, 4) Bossanova, Warm, Atmosphere, Acoustic guitar solo, 5) Heavy metal, distortion guitar solo
👍 1
03:45
DS: 135 bpm, Em. Style: 1)2)3)4) - Bossanova, Warm, Atmosphere, Acoustic guitar solo
👍 3
03:52
DS: 100 bpm Ebm. Style: 1) Bossanova, Warm, Atmosphere, Acoustic guitar solo, 2) NoStyle, 3) Bossanova, 4) Pop
👍 5
AH
15:10
P.S. Сборка вокального DS в Audacity.

1.
Сначала создаем Ритм-трек (по пп. 1...6) - под него можно петь/ записывать голос, а также подгонять по темпу Hi-Hat Loop.
👍 2
15:11
= задать темп [3],
= число ударов на такт [4],
= сколько тактов [5],
= Сгенерировать! [6].
👍 4
15:12
2. Подгоняем темп/ скорость Hi-Hat - по пп. [1,2,3] под Ритм-трек.
= Задаем уровень и панораму Hi-Hat.
= Выключаем Ритм-трек [4].
= Выделяем (по отметкам Ритм-трека) до 60 сек.
Можно сохранять DS!
👍 7
15:13
P.P.S. Да, как речевой, так и вокальный DS (на русском) будут генерить на всех языках, что есть в Suno. Я пробовал англ., франц., итал., корейский, турецкий 😊
👍 2
11 March 2025
AH
03:34
Suno: собираем полный DS !

Такой DS нужен для генерации трека в точном стиле исходной песни* - включая голос, с возможной заменой языка (и гендера) - типа, пусть Eagles споют как в "Hotel California" на рус. 😀... Основное по этому вопросу я уже излагал, здесь лишь штрихи для завершения цикла о DS.

* Борис показал (и я попробовал) - Sonauto генерит песню в манере артиста (если он в базе), но, кажется, не в стиле конкретной песни. К примеру, этот prompt адресует ко всему альбому Queen.

Полных DS я собрал >100, как наших (Ru), так и зарубежных (En), и современных, и 1920-30-х, и акустических, и электронных, и М, и Ж. Часть работали хорошо, какие-то не очень (генерация грязная или система много добавляет своего - зависит от качества звука исходного трека).

Бывало даже так: задаю (в Suno) Style один, другой - не то... вдруг слышу по TV интересный, подходящий трек, отматываю, записываю (или нахожу его на YouTube), делаю DS - Вуаля! Примеры: "Бледно-розовый оттенок" v6.0, "Новый год станет ..." v2b, v1b.
👍 5 🔥 1
03:35
Как и для инструментального DS, нужно найти лучший по качеству звука вариант исходной песни. Далее - та же схема (определить темп, выбрать ключевые части, нарезать по сетке, склеить, fade'ы...). Если проблема с пропуском по Copyright * - перемешать части.

* К слову, а можно ли "быть святее папы римского?" - меня тут порадовал своей позицией Zaptrem - основатель/ идеолог Sonauto:

"... артисты несомненно имеют право на выгоду от воспроизведения своих записей. Но я не думаю, что кто-либо должен иметь права на знания, заложенные в этих творениях, поскольку в большинстве случаев они не принадлежат им изначально ..."

"... вряд ли они изобрели эту секвенцию аккордов, или инструменты, на которых они играют, или стиль, который они используют, или даже лирические темы, которые они поют. Все основано на том, что было до них ... если бы все в цепочке решили, что они имеют право на долю, у нас была бы катастрофа."

И действительно, если идти в обратном направлении, в глубь истории и смотреть кто, когда и что привнес в музыку, то мы можем дойти ... до Пифагора 😀.
👍 2 🔥 1
03:35
Важные моменты:

1.
Желательно, чтобы DS не был "пережатым" - после нормализации (с уровнем в -1 dB) RMS находился в пределах -16... -12 dB.

2.
Лучше, если в DS не будет смешения М/Ж вокала. Например, главный голос - М, а бэк-вокал - Ж, или дуэт - как известно, в Suno крайне сложно управлять дуэтом.

3.
Если в Style НИЧЕГО не пишем - то наибольшая вероятность сохранения характера DS. Suno может не сохранить исходный вокал, если плохо распознает гендер. Так случается с низкими женскими, высокими мужскими, детскими голосами. Не только из-за тембра/ регистра, но и несоответствия (по "мнению" Suno) голоса жанру - например, нежный женский в Heavy Metal.

4.
Если в Style/ Lyrics будут включены команды, касающиеся голоса (Male/ Female, Vocals и т.п.), то система подставит голос из своей базы.

5.
Можно добавить новый инструмент к материалу DS, особенно, если он не полный (Bass, Drums, Rhythmic group, Solo Instrument) по составу. Надо просто включить в Style нужный инструмент. Правда, если это дополнение будет конфликтовать с материалом DS, например, у вас в DS Vocal soprano + Harp, а вы дописываете Distortion Guitar, то Suno, помимо гитары, может добавить Bass, Drums и т.п.

6.
Мне представляется, полный DS крайне удобен для вокалистов и авторов- исполнителей песен. Есть идея и есть прототип - песня, где вам нравится аранжировка, саунд (👇) - надо собрать такой DS со своим голосом. Сложность здесь в том, что разделение, как правило, дает "убитый" минус. Надо попытаться найти и спеть на инструментальную часть без соло (если она есть), ну, или ... довериться Suno... Если цель спеть реально: Split (vocal/ instrum), наложить свой вокал ...

7.
И как уже водится, для Upload Audio (Audio Input ранее), включите в начале Lyrics: [Instrumental Intro] [Bridge] Мммммм, Мммммм ... или [Chorus] целиком (потом это можно отрезать в DAW), чтобы Suno не скомкал начало.
--------------------

P.S. 1. Все это для Suno v3.5. Как уже отмечал, v4 - меньше следует DS. Да, в Sonauto и Riffusion пока не получилось хорошая генерация на основе DS - или др. алгоритмы, или я не нашел нужные настройки/ режимы.

2. Вот на скорую руку демо (фрагм.) из песни "Я - то, что надо" В.Сюткина. Темп и тональность, естественно, те же. В исходной соло у гитары и Electro Piano. Вокал в генерациях, конечно, грязноват, но ...
🔥 4 👍 1
03:36
1) Исх., 2) DS (мой голос). Генерации: 3) Ru, NoStyle, 4) Ru, Style: Saxophone solo, 5) En, NoStyle, 6) Франц., NoStyle, 7) Франц., Style: Harmonica solo.
👍 9 🔥 2
15 March 2025
AH
01:14
Персональная модель вокалиста.

Из телефонного разговора:

В: "... привет, Макс, на днях послушал твои последние треки - круто, ты что, звукаря или аранжировщика поменял, и манеру слегка?... Давай вечером подскачу - потолкуем?"

М: "Привет! ... Влад, ну ... подскачи, только я 3-й месяц на Мальдивах 😀".

В: "Аааа ... красава! Чё, дистанционно пишешь?"

М: "Нет, ... вообще не пишу. Точнее, Я не пишу - Ден все делает. Там же, в моей студии или у себя в Митино, кто его знает 😀".

В: "Как? ... я же слышу - это реально ты!"

М: "Ты слышишь? Я тоже, ха ха ха ! ... Ден каких-то айтишников нанял, они на моих треках ... интеллект, ну, ... типа робота, комп научили петь ... точно как я... после тьюнинга. Может даже лучше ... Присылает мне 3-4 песни в неделю - по несколько вариантов ... выбираю самые интересные ... он публикует ... Влад, только ты никому, слышь, ... ни-ко-му, понял? Братан, я серьезно, НИ-КО-МУ!"
😁 3
01:14
Этот разговор - вымысел (пока)... Вот реальность. Недавно, в декабре/ января ко мне обратился проф. исполнитель (достаточно представленный у нас на YouTube и TV) c вопросом - можно ли генерить "его" песни с его голосом и точно в его манере. Я попробовал RVC (собрал его модель) и сделал замену тембра ... Также собрал несколько разных DS на его материале, сгенерил десяток тестовых примеров в Suno. По RVC он сказал: "Тембр точно мой, но манера не везде". По Suno - "... тут уже намного больше похоже, и тембр, и манера. А можно, чтобы вообще как я и чистый звук?"

Я тогда написал МакКинли:

"... У меня вопрос. Для графики есть ИИ сервисы, куда вы загружаете 10-20 фотографий одного и того же человека, система обучает модель. Когда модель готова, вы можете на ее основе (+ промпт) сгенерировать новую картинку этого же человека - другая поза, фон, одежда и т. д. Так вот, есть ли подобные алгоритмы для вокала? Вы собираете 10-20 вокальных треков реального певца ... и затем генерируете новую песню в его/ её стиле. Тут важна манера пения, интонация и тембр, конечно."

МакКинли: "... есть похожие методы для вокала. Например, DiffSinger работает аналогично Stable Diffusion, обучаясь и генерируя певческие голоса ... аналогией RVC в ИИ изображений были бы такие методы, как DreamBooth или LoRA ... Для более удобного варианта ты можешь рассмотреть такие инструменты, как Synthesizer V или Emvoice, которые предоставляют интуитивно понятные интерфейсы для создания песен с определенными мелодиями и текстами. Эти платформы позволяют вводить MIDI-файлы для мелодии и тексты песен напрямую, подобно тому, как работает Vocaloid."

Из переписки я понял, что именно так, как в Suno, работать сейчас не получится. Даже когда будет отлажена модель певца, придется и мелодию вбивать, и текст, и часть исполнительских нюансов программировать. И вообще, пока это не для "чайников".

Но! Опыты с Sonauto, когда система генерит с точностью 99% в стиле известного артиста, подвели к догадке, что и для обычного человека это в принципе может быть доступно. Если есть модели таких артистов, как Chris Rea, Sting, Shakira, Zara ... могут же быть и модели "Смирнова, Коваленко, Зарипова" ?!

Попросил Бориса задать этот же вопрос Sonauto, а сам написал в Suno, Udio, Riffusion. Пришел ответ из Sonauto от Zaptrem'a:

"Это возможно, но не произойдет до версии v3. Мы хотим сначала действительно улучшить качество звука и музыки",

.
.. от других - ждем.
🔥 4 👍 2
01:16
И действительно, такая опция могла бы быть хорошим маркетинговым ходом. Вероятно этим захотели бы воспользоваться даже вокалисты, являющиеся противниками музыкального ИИ. Ведь в этом случае список их песен будет увеличиваться с помощью ИИ по их заказу и под их контролем.

Общество всегда сопротивляется новому. В начале 80-х, когда наша рок-группа сменяла на танцплощадке духовиков, те смотрели на нас, как на недоразумение, выскочек, "не знающих нот" ... а через лет 10-15-ть нам пришлось освободить то же место для диджеев, которые "не музыканты, играть не умеют ... и аппаратуры то нормальной нет" ... Так было со всеми новациями - с видео, CD, mp3 ... вот выдержки из ответов Suno/ Udio в судах:

"Когда в 1930-х пластинки начали приобретать популярность, музыканты активно выступали против их использования, т.к. ... замена оркестров записями оставит настоящих музыкантов «на свалке человеческих отходов» ".

"Когда в 1960-х синтезаторы стали набирать популярность, лидеры AFM (American Federation of Musicians) приняли резолюцию, запрещающую их использование, т.к. это будет «использоваться для замены музыкантов» ".

Мне кажется, что сейчас для певцов лучшей защитой от ИИ было бы создание собственных Personal Models и борьба с появлением "своих", но не заказанных ими, "исполнений". Вполне возможно, кто-то уже так и поступает 😀. Хотя, вот ... "Мировые звезды (A.Lennox, P.McCartney, ABBA, Sting...) отказываются выпускать новые треки из-за нейросетей" - была инф. на РЕН-ТВ, первоисточник не знаю.
👍 7
01:17
P.S. ... когда я организовывал в Новосибирской консерватории первый в СССР класс муз. компьютеров, на меня писали анонимки, вроде "...собирает в подвале из ворованных радиодеталей синтезаторы на продажу ... ☝" - некоторые педагоги боялись, что компьютеры их заменят ... Сейчас такие воспоминания вызывают улыбку 😀. (На фото мой коллектив в НГК. Новосибирск, ~1988 г.)
👍 16 6 😁 5 👏 4
19 March 2025
AH
17:11
ВНИМАНИЕ КОНКУРС!

Наши коллеги устроили конкурс на лучший кавер песни на русском языке. Приглашаем всех принять участие в голосовании!

В этот раз выбрана песня "How Deep Is Your Love" группы Take That.

Можно участвовать в еженедельных конкурсах на лучшие кавера от нейро-музыкантов.

Для победителя предусмотрен денежный приз! 💸🎁👌

Голосование анонимное для чистоты результатов. К участию в конкурсах приглашаются как создатели ИИ-музыки, так и те, кто занимается эквиритмическим переводом песен.

Можно предлагать как варианты с сохранением изначальной музыки и голоса, так и варианты ремиксов и каверов песен в другом стиле и жанре. Оценивается общая креативность и подход к решению этой непростой задачи.

Вот ссылка на голосование.
🔥 8 😁 1
AH
22:54
RIFFUSION. Замена вокала. Замена музыки.

Всем привет, на связи Борис, продолжаем изучать музыкальные нейросети! Надеюсь, вы обратили внимание на конкурс каверов и оценили треки мастеров ⬆️. Лично я считаю, что это очень крутая работа, требующая и мастерства, и времени.

А сегодня хочу обратить ваше внимание на вчерашнее обновление функционала в Riffusion. В существующую модель FUZZ-0.8 были встроены новые функции:

1. Замена вокала
2. Замена звука
(минусовки / backing track)

Можно создать инстр. композицию или песню, или загрузить из внешнего источника (Upload Audio), а потом изменить вокал (М/Ж, дуэт). И даже изменить стиль песни. Более полное описание см. на сайте.

Изменить вокал можно с сохранением музыки, а "минус" можно изменить, не меняя оригинальный голос. Справа от звуковой дорожки есть вариативная настройка музыки или голоса в %% от оригинала.

Повторю - можно загружать свои песни и инстр. композиции, но их продолжительность не должна превышать 4 минуты.
👍 3 🔥 2
22:55
Для сегодняшнего эксперимента я взял песню "Этот город" группы Браво (Жуков/Хавтан) - думаю, её многие знают по тексту. Сделал 3 примера с заменами:

а) голос М на Ж
б) голос М на Ж и изменение музыки
в) голос М на др. М и изменение музыки

Важное. Если вам тоже не терпится поэкспериментировать с какими-либо известными песнями, то имейте ввиду, что у Riffusion хорошая защита копирайтинга (на сегодня, пожалуй, лучше, чем у Suno и Udio). Плюс алгоритм постоянно улучшают, т.ч. придется "поколдовать". Но, об этом, думаю, мы поговорим отдельно.

P.S. 1. Да, не стоит забывать и о двух других крайне полезных функциях. Это Replace - замена части песни. И Cover, придающий песне другое звучание. С ними появляется большое поле для экспериментов, как с голосом (своим или чужим), так и с музыкой.

2. Riffusion, оставаясь пока совершенно бесплатным приложением, развивается, надо признать, довольно быстрыми темпами. За последний месяц они ввели и загрузку WAV, и возможность упорядочить файлы в проектах.
🔥 5
23 March 2025
AH
15:24
Ай да Riffusion, ай да Swap !

Честно говоря, меня так зацепили примеры в посте Бориса с заменой вокала и музыки в Riffusion, что я решил посмотреть повнимательнее, что же там ИИ наделал с мелодией.

Ниже 2 трека - фрагменты только с Verse3 и Chorus. В них разнесённые по каналам вокалы - исходный (L) и измененный (R), + Hi-Hat. Мелодии в треках "Браво Женский вокал" и "Браво Женский Синтипоп" одинаковые.

Для наглядности сделал иллюстрации (Piano-roll) для Verse3 ⬆ и Chorus ⬇ - изменённые ноты обведены. Внимание больше на изменения тона (нот), а не на нюансы в ритмике.

! Мелодия при смене голоса (или гендера) сохраняется не полностью - т.ч. здесь не RVC (split > смена тембра > сборка), а генерация/ синтез.

Да, прослушивать лучше в головных телефонах.
🔥 6
15:25
сравнение для "Браво Женский вокал" и "Браво Женский Синтипоп"
15:25
сравнение для "Браво Мужской Рок"
15:26
О гармонизации здесь

В "Браво Женский Синтипоп" и "Браво Мужской Рок" выполнена замена музыки ("минусовки"/ backing track) с отличным от оригинала стилем.

а) Для одной и той же мелодии может быть много вариантов гармонизации.

б) Задавая стиль, мы принуждаем систему следовать ему и в характере гармонии*. "Браво Женский Синтипоп" звучит свежо, но Ruffusion не везде справляется с гармонизацией**, может поэтому и чуть меняет мелодию.

в) В "Браво Мужской Рок" гармонических изменений не много, т.к. стиль ближе к оригинальному треку, но и здесь есть недоработки**

г) Местами есть несовпадение "размера" мелодии с длиной секвенции - типа, фразы по 8 тактов, а секвенции по 6 и т.п.

* То, что стандарт для Jazz'а, будет странным в ElectroPop. Что норма для Country - вряд ли адекватно "сработает" в EDM.

** речь не о недопустимых косяках, а об ошибках, которые делают музыканты- новички, переигравшие еще мало чужой музыки и не накопившие (в голове и пальцах) гармонических шаблонов, характерных для конкретного стиля.
15:27
Вообще, эти обновленные версии/ каверы в части мелодий и гармонии (а не в части "минусовки" и точности интонирования), напоминают исполнение "у костра", на "домашней вечеринке", когда точно мелодию не все помнят, гармония где-то упрощена ("Браво Мужской Рок"), а где-то слегка напутана ("Браво Женский Синтипоп").

Певец- профессионал постарается спеть все правильно, без упрощения из уважения к автору, да и к самому себе... Любители, когда начинают разучивать вроде бы знакомую песню, обычно "обнаруживают" ноты, которых "кажется не было" - ... всегда пел "Фа-Фа-Фа", а там, на самом деле, было "Фа-Ми-Фа" и т.п.

На мой взгляд в оригинале в песне "Этот город" все идеально и согласованно - и мелодия, и гармония, и звук, и форма - т.е. все стилистически верно. Однако замены Riffusion выдают крайне интересные результаты, от кот. можно оттолкнуться, чуть подправить и будет очень здорово.

Сам еще эти функции (Swap Vocal/ Sound) не пробовал, но попросил Бориса "прокачать" одну мою песенку -"Love Me Or ...". Уже давно (кажется в 2011) делал черновую аранжировку, Лена Радионова написала "временный" текст и спела, а Антон Ильяшенко сыграл на гитаре и собрал финальную версию. Песню в этом виде показывать не собирался, а теперь, как часто бывает, ... временное становится постоянным 😀 вот ... Борис сделал 2 варианта:

а) замену минуса - Style: "Piano rock, Piano solo." (сохранение Ж вокала),
б) замену голоса - Style: "Male vocals" (смена вокала на М)

Получилось, на мой взгляд, 2 ярких трека.

В фортепианном - совершенно другой настрой! Я бы такую гармонию не написал в принципе. Если бы просили так гармонизовать, то сначала бы слушал что-то в этом стиле... Здесь даже какие-то нелогичности в гармонии звучат классно, и если не меняют смысл, то уж эмоции, атмосферу - точно.

В мужской версии Riffusion, кроме голоса, поменяла и мелодию, и форму частично, и слова слегка - может система не все разобрала в исходной версии, а может там Борис %% "Следование Lyrics" установил ближе к 0 - загадка 😀.

Так что в целом первые пробы функции Swap Vocal/ Sound в Riffusion для меня позитивный (хотя, и немного пугающий 😀) опыт.
👍 7
15:28
Исходная верс. (~2011)
👍 3
15:29
Swap Sound, Style: "Piano rock, Piano solo."
🔥 1
15:29
Swap Vocal, Style: "Male vocals"
👍 3
26 March 2025
AH
13:10
Новый КОНКУРС!

Наши коллеги продолжают конкурс на лучший кавер песни на русском языке. Лично мне эта тема очень интересна, к тому же она требует хороших навыков и мастерства.

В этот раз выбрана песня "Lady" дуэта Modjo.

Можно участвовать в еженедельных конкурсах на лучшие кавера от нейро-музыкантов.

Для победителя там предусмотрен денежный приз! 🎁👌

К участию в конкурсах приглашаются как создатели ИИ-музыки, так и те, кто занимается эквиритмическим переводом песен.

Оценивается общая креативность и подход. Послушать знакомую песню, но на русском языке с сохранением голоса и смысла это довольно интересно! Вот ссылка на голосование.

В качестве примера предлагаю послушать работу победителя прошлого конкурса. Тогда для голосования была выбрана песня "How Deep Is Your Love" группы Take That.

И мой собственный скромный вариант попытки юмористического кавера, но на русскоязычную песню "Остров невезения", которую, конечно, все прекрасно знают. 😊
ТО Boris
👍 9
30 March 2025
AH
17:01
Song Prompt Assistant

SPA - десктопное веб-приложение для сборки Prompt, Template (инструкции) и Song Structure (Verse, Chorus...), но ... по-порядку.

Неделя вышла удивительная - программировал почти все время, немного отключился от ИИ негатива (что-то стало платным, результат мало предсказуем, папки и файлы множатся, в голове путаница - в чём что делал - Suno, Udio, Riffusion, Sonauto ...? и где какие особенности 😔).

В HTML, PHP, JS, Jq, css все как-то определеннее (без ИИ пока) - что задал, то, в основном, и выполняется. Ну, и приятно что-то сделать своими руками.

1. Сначала хотел написать простую программку, упрощающую сборку структуры - чтобы не копировать из предыдущих песен и легче менять.

2. Потом стал составлять список артистов, которые "генерятся" в Sonauto. Спросил что есть у Бориса - он кинул мне ссылку, где пара сотен имён!

3. Плюс, в канале Яны море промптов, да и у самого уже много накопилось...

В общем понял, что надо написать приложение, чтобы хотя бы что-то упорядочить.
👍 10 1
17:01
Кратко о помощнике SPA v1.0.

1. Два режима Simple и Advanced. Default - сброс на минимальный набор параметров. Prompt и Template (+ Song Structure) обновляются при изменении значений параметров*.

* часть параметров взаимосвязаны -так один не будет представлен в Prompt/ Template, пока другой выключен. Например, смена "Theme" ничего не изменит, пока не включен "Song Description".

2. Три колонки. В левой результат - Prompt, Template (инструкции) и Song Structure (Verse, Chorus...).

В центральной - задание параметров: Genre, Sub Genre, Style, Sub Style, Tempo, Time Signature, Rhythm Feeling, Age, Voice Gender, Voice Type, Voice Character, Solo Instrument, Mood, Performer Kind, Brand/ Name, Environment, Theme, Scale, Key, Additional Instruments. Также опции: Template, Structure (in line), Song Description.

В правой - формирование Song Structure из тегов и пресетов.

3. В верхнем Toolbar - задание формата сборки Prompt - A,B,C,D. Они отличаются детализацией (набором параметров), но главное в том, насколько явно сделана адресация к конкретному артисту**.

** сервисы по-разному реагируют на прямое указание на известного артиста/ группу. Исполнители, которые "принимаются и генерируются" в Sonauto (а их, хоть и не проверенных, порядка 200-х ), отмечены в списке звездочкой (*).
5 👍 5
17:02
Формат А - исполнитель напрямую не указан, а лишь раздел в Performer Kind, например, Male Singer. Гендер, тип, характер вокала заданы.

Формат B - исполнитель указан относительно, например, как ABBA Style. Параметры вокала не приведены.

Формат C - исполнитель указан напрямую в самом начале (Sonauto с таким Prompt работает!), а вокал не указан.

Формат D - более полный набор параметров. Исполнитель указан относительно и расположен во 2-й половине Prompt. Вокал указан.

4. Копирование - в Clipboard по кнопкам Copy...- перед ними индикация количества символов в Prompt и Template (+ Song Structure).

Genre и Style - как всегда невнятная тема. В "природе" они перемешаны, в разных источниках разные списки. Я остаюсь приверженцем вида ритмики * (March, Walts, Tango, Bossa ... ), как приоритета. Уже потом всякие "бантики" вроде того, какие инструменты, манеры и пр. Именно поэтому добавил списки из двух синтезаторов с авто-аккомпанементом - Yamaha PSR300 (попроще) и Roland GoKeys5 (посложнее).

* Исторически, разработчики ЭМИ, инженеры (в отличие от музыкальных критиков и музыковедов), были вынуждены не только систематизировать стили и жанры, но и четко определять их характеристики - ведь их надо запрограммировать! Тут такие описания, как "Soul Ballad" или "Furious Battle" не пройдут - нужна конкретика вроде "138-162 bpm, Generic Bossa nova, Syncopated Rhythm Feeling, Minor pentatonic" и т.п.

Важное: SPA - помощник, а не гарантия, что тот или иной сервис будет лучше исполнять Prompt, Template или Song Structure. К слову, мои "форматы" выбраны почти "с потолка", на основе скромных наблюдений. В программу можно было бы добавить другие.

P.S. 1. Сделал краткий Help (открывается из программы).

2. Это первая версия, в списке доработок у меня > 15 пунктов. Окажется SPA полезным, будет время - буду улучшать, в первую очередь добавлю лист своих, как мне кажется, удачных промптов в Suno v3.5.

3. Если есть идеи - можете дополнить мой SPA wishlist, отправив email. Ничего не обещаю, это все хобби, но заранее благодарен 😊.

НОВАЯ ВЕРСИЯ (1.4)
👍 12 🔥 5
2 April 2025
AH
23:40
Inpaint and Replace

Красим и меняем.

Всем привет, на связи Борис, сегодня будем «закрашивать» музыкальные композиции. Лично для меня это, пожалуй, основная функция, позволяющая достичь точности и гармонии в музыке ИИ.

В Udio и Sonauto она называется Inpaint.
В Riffusion и Suno - Replace. Ее задача - заменить часть музыки или слов в песне.

Можно изменить мелодию на определенном отрывке. Сделать замену текста - изменить слова и даже одно слово с неверным ударением. Можно точно сделать концовку или начало композиции, просто «закрашивая» нужный фрагмент. Система учитывает контекст ДО, ПОСЛЕ и внутри сегмента и создает новое - где-то лучше, где-то хуже.

Где еще эта функция может пригодиться, кроме замены нескольких нот или слов?
ТО Boris
23:40
Бывает ситуация, когда песня полностью устраивает, но хочется, например, где-то добавить соло или вставить новый куплет. В Suno и Riffusion нет возможности вставить/расширить Intro (Before), когда нужно...

Сегодня мы в готовую композицию вставим:

1) новый куплет.
2) более длинное вступление.

Такого функционала еще нет ни у кого, но уверен, что это довольно просто и появится в ближайшее время. (Пока потребуется внешний аудиоредактор, чтоб вставить новый паззл в уже готовую композицию).

Все примеры моего эксперимента приведены ниже.

Для исходника берем текст песни «Остров невезения» и генерим новую песню только с 1 и 3 куплетами. Думаю, почти все знают текст, поэтому ориентироваться будет проще.

Итак, задачи: вставить в середину куплет 2 и сделать новое длинное Intro там, где нельзя расширить с помощью Before, например в Riffusion*.

В Suno я не привожу примеры - у меня сейчас нет платной подписки, да и я все реже им пользуюсь. Но там функция Replace работает идентично.

Сначала нам придётся скачать песню и вставить, например, в Audacity.
ТО Boris
👍 4
23:41
Смотрим какая длительность куплета. Получается ~ 28 сек. Именно столько тишины нужно добавить в середину песни.

Выбираем подходящее место «с запасом» для окрашивания. Пункт Генерировать – Тишину (Generate –Silence), указываем время с секундах. И у нас появляется отрезок с тишиной прямо в середине, которые мы и будем «окрашивать».

Загружаем на нужный нам сайт. Выбираем Inpaint или Replace. Выделяем нужный нам сегмент так, чтобы он захватывал музыку и до и после. Прописываем слова. Указываем нужный нам стиль. Смотрим на полученный результат.

Важный момент. В Udio вроде всё понятно. Там отрывок 32 сек. И туда мы вставляем слова нового куплета.

В Riffusion мы оставляем слова всей песни, и вставляем где необходимо новые. В Sonauto тоже, слова, которые были, остаются, а новые вставляем между ними.
ТО Boris
👍 4
23:42
Сразу скажу, в итоге в Udio у меня не получилось «закрасить» отрезок 28 секунд. Генерация выходила с "Backend Error". Но на сайте последнее время ведутся работы (и я грешу на это) - пришлось вставлять вместо тишины просто первый куплет. И закрашивать уже его полностью.

Для создания нового вступления действуем точно также, вставляем тишину прямо в начало песни. Я вставил 15 секунд. Загружаем в Riffusion. Выделяем сегмент с начала и до, например 17 секунд. Указываем [intro] и все что мы хотим увидеть в этом отрезке. Получаем длинное новое вступление в Riffusion.

❗️Точно так же функция Inpaint поможет в Udio сделать нужное вам начало или конец. Прошли те времена, когда у меня все песни из Udio имели 32sec во вступлении и 32sec в конце. 😄

Для этого можно просто воспользоваться встроенной функцией Trim. Обрезать музыкальный отрезок на нужное вам время и уже потом закрасить его. Указывая соответственно в ручном режиме начало и или конец Clip Start это у вас будет.

Результаты приведены ниже: 👇

1_verse1_3 - исходная песня с 1 и 3 куплетом.
2_Udio_verse123 - вставка 2-го куплета в Udio
3_Sonauto_verse123 - вставка 2-го куплета в Sonauto
4_Riff_verse123 - вставка 2-го куплета в Riffusion.
5_Riff_new_intro - вставка Instrumental Intro в начале в Riffusion.

Чтоб оценить, что и как изменилось, достаточно в измененных песнях (2 - 4) прослушать отрывок с 32 по 58 секунду, а в последней - первые 15 секунд.

Я считаю что все три нейросети справились на 5 с моим заданием.

Надеюсь эти наглядные эксперименты кому-то помогут в создании музыки, которая полностью соответствует их замыслу 😊.
ТО Boris
👍 5
23:42
ТО Boris
23:43
И лайфхаки дня.

1) Если песня довольно длинная, то в Udio бывает проблематично выбрать вручную точный отрезок в функции Обрезать и Расширить (Crop and Extend). В этом случае может помочь, как ни странно, режим для людей с нарушением зрения (находится в настройках Preferences > Accessibility > Accessibility Mode).

Включив эту функцию, вы можете точно выставить время обрезки, вплоть до десятых долей секунды. Иногда это помогает после нескольких неудачных попыток в стандартном режиме.

2) Если темп (BPM) известен и стабилен, легко вычислить точный временной интервал: одна четверть (1/4) = 60/BPM, т.е. 0,5 сек. при BPM = 120. Тогда, если темп 124, размер 4/4, а в куплете 8 тактов, его длительность: 8*4*(60/124) = 15,483 сек.

#лайфхак
ТО Boris
🔥 6 👍 3
7 April 2025
AH
00:13
Еще раз о жанрах / стилях

... Какие бывают виды музыкальных радиостанций? Наверное, 7-8. Пусть Pop, Pock, Классика, Электронная, Джаз, Блюз, Народная. Конечно больше, но вроде любую др. музыку можно отнести к одной из этих. Heavy Metal > Rock, шансон > Pop...

... распознавание и классификация звуковых, визуальных (и др.) объектов - постоянный и почти мгновенный процесс, если объект "вписывается" в систему. Напротив, не укладывающееся в привычную схему явление, вызывает беспокойство. Скажем, возгорание электропроводки (негативное событие), меня меньше встревожит, чем голубь, который влетит в комнату сквозь оконное стекло, не разбив его... Обезьяно-человек в холле ТЦ, напугает народ больше, чем обезьяна...

Где-то, кажется у Т.В. Черниговской или С.В. Савельева, попадалось утверждение, что организация нейронов приводит к разделению множества объектов на 7+/-2, т.е. 5-9 групп. Видимо это оптимально для выживания в природе. Слышал об этом давно и всегда вспоминал, когда делал классификацию чего-то.
👍 6 🔥 1
00:15
Недавно ради спортивного интереса и подтверждения теории собрал несколько классификаций:

Архитектура [8]: античная, романская, готическая, барокко, классицизм, рококо, ампир, модерн.
Вкусы [6]: сладкий, кислый, соленый, горький, острый, умами.
Гласные звуки [6]: 'а', 'у', 'о', 'и', 'э', 'ы'.
Грехи [8]:
похоть, чревоугодие, жадность, лень, гнев, зависть, гордыня, уныние.
Женские типы [6]: "деловая женщина", "стерва", "хозяюшка", "принцесса/ наивная", "авантюристка", "подруга героя".
Живопись [5]:
станковая, монументально-декоративная, театрально-декорационная, цифровая, миниатюра.
Мужские типы [7]: "начальник", "плохиш", "лучший друг", "очаровашка", "потерянная душа", "искатель приключений", "профессор".
Музыка [9]: Pop, Folk/ Country, Rock, Latin, Classic, Rhythm 'n' Blues, Jazz, Chanson, Electronic.
Музыкальные громкости [8]:
ppp, pp, p, mp, mf, f, ff, fff.
Музыкальные ноты [7]: До, Ре, Ми, Фа, Соль, Ля, Си.
Музыкальные темпы [7]
: Largo, Adagio, Andante, Moderato, Allegro, Vivo, Presto.
Продукты питания [6]
: овощи, фрукты, хлеб/ злаки, мясо/ птица/ рыба, молочные, сладости.
Религии [6]:
Христианство, Ислам, Индуизм, Буддизм, Иудаизм, другие.
Сюжеты [6]:
"из грязи в князи", "из князи в грязи", "Икар", "Эдип", "Золушка", "человек, загнанный в угол".
Танцы [8]: народные/ этнические, бальные, исторические, современные, уличные, клубные, спортивные.
Фильмы [9]
: художественный, биографический, детский, детектив, драма, исторический, комедия, мелодрама, приключения.
Цвета [7]: красный, оранжевый, жёлтый, зелёный, голубой, синий, фиолетовый.
Чувства [5(9)]: зрение, слух, вкус, обоняние, осязание, (чувство тепла, равновесия, боли, собственного тела).
Эмоции [6]: радость, удивление, страх, гнев, грусть, отвращение.

Если кажется, что где-то больше, то, скорее всего, дополнительные можно отнести к одному из имеющихся классов.
👍 7 🔥 1
00:16
Честно говоря, меня, как наверное многих, напрягает множество жанров/ стилей, даже несмотря, что они - только часть из 3-4 тыс. тегов. Исторически их количество, мне кажется, связано с двумя причинами:

а) литературный стиль в описании композиций (впрочем, и музыковедческий к нему близок).
б) требование рынка - маркетинг.

Уверен почти на 100%:
-- нет людей, которые разбираются сразу во всех стилях,
-- два специалиста в одном стиле вряд ли всегда сходятся в классификации одной песни в под-стиле.

Из Wiki - "... генеалогические древа музыкальных жанров показывают, как новые жанры возникли из существующих жанров и как несколько жанров внесли свой вклад в новый жанр. Поскольку музыку можно бесконечно разбивать на все меньшие и меньшие категории, генеалогическая диаграмма обычно фокусируется на одном основном жанре..."
👍 5 🔥 3
00:17
Т.е. на практике НЕТ такого огромного количества жанров/ стилей - это все подклассы. А чтобы немного уменьшить путаницу я предложил бы такой подход:

Жанр - это ГДЕ (среда, назначение, например - музыка кино, легкая музыка, клубная музыка, народная ...), а

Стиль - это КТО (рок-группа, эстрадный оркестр, на гитаре ...) и КАК (Straight Beat, Swing, Bossa ... )

Хотя и это спорно. Действительно, популярные музыкальные каталоги редко включают точное описание - темп, размер, тип ритма, форма, набор инструментов, а у одной песни может быть несколько тегов разных жанров и стилей. Да и кому нужны "технические" описания? Звукоинженеру, аранжировщику, диджею - а их меньше 1% от слушателей... ну, вот, вроде, нам теперь для составления промптов.

Пока музыкальные ИИ сервисы слабо "откликаются" на точные задания - по факту их базы включают именно описательные данные. В этом и причина моей постоянной агитации за использование DS, как "прототипа", не требующего вообще никакого указания жанра и стиля.

К слову, 4 апреля в письме от Udio:

"... мы выпустили новую функцию под названием "Стили". Стили позволяют вам создавать новые песни, используя существующую песню или аудиоклип Udio в качестве эталона стиля. Вместо того чтобы бороться с промптами, пытаясь уловить атмосферу, теперь вы можете показать нам именно то, что ищете."

Хорошая новость, т.к. если подобные функции становятся штатными, значит сервисы работают над повышением их качества. Мне всегда казалось, что генерация "от DS" в качестве уступает генерации от промпта, т.к. используется "ускоренная" тренировка модели (кажется на основе подхода ControlNet).

Примечательно, что любой опытный продюсер на практике "сужает" жанр/ стиль - т.е. старается "вписаться в систему", сделать что-то похожее - то, что легко распознается и не требует напряжения при восприятии: "Да, интересно, оригинально, но мы сделаем как обычно - то, что сработает". Зачем? Все для того, чтобы снизить риски неудачи. Так что 7+/-2 работает!

В начало поста
👍 11
13 April 2025
AH
21:09
Несвязность генерации и удвоение голоса

В посте от 20 января, разбирая примерное устройство Suno, Udio и др., я отмечал среди "болезней" несвязность генерации - система порой "плохо помнит", что было ранее в этой же песне.

По этой причине, 2-й, 3-й куплеты (припевы) могут мелодически и ритмически отличаться от 1-го. Иногда очень заметно. Конечно, в реальной композиции такое отнесут к развитию, авторскому прочтению. Но в песнях от человека таких диких вольностей, как у ИИ, обычно нет. В современной популярной музыке мы привыкли слышать, как правило, строгое повторение мелодии и ритма. Особенно в припеве. Ведь это то, что авторы стараются сделать максимально запоминающимся, чтобы "цепляло" (Catchy tune), чтобы можно было легко подпевать.

"Нет худа без добра", "минусы в плюсы" и т.п. - точно? Да! ... Я делал одно из 3-х:

-- выбирал лучший припев и заменял остальные (Split, Copy, Paste);
-- дублировал голос в припеве (2-й голос, октава, унисон);
-- собирал группу: 3 припева в один + еще 3 с PitchShift/ Pan.
👍 4
21:11
Раньше в студии приходилось делать из одного голоса 2-х и 3-х-голосие. Даже хор, иногда - женский из мужского трека или наоборот. Способы обычные - Pitch и Spectrum Shifting, вариации темпа, Pan, Delay, Reverb. Но один голос это ОДИН - т.е. на выходе "хор близнецов/ клонов". Лучше 2, а еще лучше - 3 (даже если один и тот же певец, т.е. тембр тот же).

Прелесть косяков Suno и др. в том, что система (как и человек) не может спеть одни и те же слова (с той же мелодией) абсолютно одинаково, поэтому и сложение голосов не воспринимается как сумма клонов.

Пара примеров из недавнего прошлого:

Припевы в "Мозг лимбический" v7.1 (0:52) и v1.0 (0:53) - здесь разброс большой, но подходит по смыслу - как бы сознание и подсознание "слегка рассогласованы" 😕

Припев в "..многое, что не было" v2b (1:25).

Сегодня провел небольшое тестирование - решил посмотреть, как несвязность проявляется в Riffusion, Sonauto, Suno и Udio на одном и том же тексте и с тем же промптом.

Когда-то я записал песню, сделав русский текст к "Just the Two of Us" Гровера Вашингтона (G. Washington). Только не в оригинальной версии, а на минус в стилистике Энди Сеймура (A. Seymour). Правда, моя любимая версия - чистая акустика и джаз в исполнении Cyrille Aimée и Diego Figueiredo ...

Вот, текст есть ... prompt выбрал такой, который "проходит" во всех системах. Ориентировался на Энди Сеймура*, поэтому: [Pop, Jazz-rock, Male vocalist, Male vocal, Emotional, Melancholic, Early 2000s, Saxophone]. Настройки - везде по умолчанию.

* а какой там стиль? По факту и Jazz, и Pop, и Rock. Побоялся поставить Jazz-rock вначале - очередность (как и в графике), похоже влияет. Но ... все-равно не помогло 😕.

В каждой системе:

-- сделал по 2 генерации (т.е. 4 трека) полной песни,
-- разделил Voc/ Instrum,
-- к 1-му припеву добавил** вокал из 2-го (или 3-го) - где было меньше косяков,
-- минус прибрал на 12dB (чтобы вокал был заметнее),
-- голоса развел максимально по панораме (L/R),
-- собрал только припевы в примеры.

** конечно, где-то чуть подвигал назад-вперед, где-то чуть растянул (т.к. темп в генерации понемногу увеличивается - тоже известный косяк).

[Chorus]
Только мы вдвоём
Если хочешь будет так
Только мы вдвоём
(Только мы вдвоём)
Только мы вдвоём
Строим замки в небесах
Только мы вдвоём
Ты и я

В итоге 4 примера (Riffusion, Sonauto, Suno и Udio) только с припевами для оценки несвязности:
👍 4
21:12
4 Пр. (Double Voc)
21:13
4 Пр. (Double Voc)
21:13
4 Пр. (Double Voc)
21:13
4 Пр. (Double Voc)
👍 1
21:14
Выводы:

1. Несвязность самая высокая у Udio и Sonauto, самая низкая - у Riffusion.

2. Вроде относительно простой Prompt воспринимается по-разному. Правда, Pop, Jazz-rock - действительно широкое поле. Riffusion - ближе всех к тому, что хотелось получить. Suno - больше в Jazz. Sonauto и Udio - вольница, скорее, Punk-Jazz, местами Funk. Странно, что Male vocal не везде отработано.

3. Живость вокала - выше у всех в Udio, но как-то карикатурно. Джаз там первоклассный, а у вокалистов почти ... стёб.

4. Самые удачные примеры (для широкой аудитории) у Riffusion. Тут в целом все оптимально - мелодия, гармония, саунд, форма.

Решил выложить 2 песни (Riffusion, Udio) в полной длине*.

* В проигрыше стояло [Saxophone Solo]... На JTU_Udio_1b мне представилась картинка - голливудские звезды в прикиде бомжей у мусорных баков, сорри ... (что-то подобное от ИИ недавно появилось 😕)

В начало поста
🔥 5 👍 1
21:14
Полная v2a Riffusion
4 🔥 1
21:15
Полная v1b Udio 😎
🔥 1
19 April 2025
AH
02:03
Дубль вокала в Udio

Всем привет. На связи Борис. И сегодня мы будем дублировать понравившийся вокал в Udio.

В ходе генерации мелодий и новых голосов бывает можно встретить интересный вокал, обладающий собственными чертами. И конечно, сразу хочется создать и другие композиции с этим вокалом. Поэтому я вам предлагаю метод, который можно использовать в Udio.

Я, к сожалению, не нашел рабочего способа в Riffusion как можно добиться такого же эффекта. Их новая функция Vibes (где можно сохранить короткие 10sec «вайбы» и затем повторно использовать при создании новой песни) довольно хороша и отлично подходит для создания нужного стиля или определенной музыкальной характеристики. Но для голоса у меня нет готового рецепта с функцией Vibes пока. Все звучит близко, но потом уходит в сторону. Может у вас есть хороший способ 😕.
ТО Boris
02:06
В Suno есть отличная функция - Персоны. Она позволяет повторно использовать музыкальный стиль, и, в теории, повторно голос. Я видел неплохие результаты на английском языке. На русском не видел и сам не пробовал. Но то, что я слышал из Персон, там просто использовался один и тот же муз. стиль. Заставить поп-исполнителя в Suno спеть в стиле рок или блюз кажется невыполнимой задачей при использовании Персон. Хотя, возможно, я ошибаюсь.

В Udio же есть «волшебная» функция Context Length (Длина контекста), которая значительно расширяет возможности при создании музыки. И это то "окно", которое нейросеть учитывает при создании следующего музыкального отрывка. Длина контекста составляет в Udio 130 секунд. Эта функция поможет сменить ритм, добавит разнообразие в композицию. С её помощью довольно легко сделать дуэт, как мы уже с вами пробовали ранее. И она же позволяет повторно использовать понравившийся вокал в другой песне.

Кратко расскажу основные этапы.

Первое, что для этого потребуется, это получить стабильную а капеллу вокала, по крайней мере на 32sec или лучше больше. После завершения первоначальной песни продолжайте расширять дальше, но уже сменив как сам текст, так и теги. Я, например, использую теги a capella и dry vocal. Обязательно Ручной режим (Manual Mode). Ползунок Prompt Strength на 90% или выше. Конечно, нейросеть будет сопротивляться, особенно при наличии мощного припева, который довольно трудно побороть. Я делаю 20-40 генераций на получение стабильного вокала без музыкальных инструментов. Или с легкими мотивами, но уже с использованием другого инструмента, чем тот, который был в песне.

Затем расширяем Crop and Extend именно только раздел с вокалом. И тут самое интересное:

-- Context Length (Длина контекста) устанавливаем на минимум, а это 1sec.
-- Ставим Инструментальный режим, без текста.
-- И расширяем Перед (Before)!

Наша задача создать новую мелодию, не связанную никак ни с прошлой песней, ни даже с вокалом, который конечно продолжает чаще всего свой мотив.

При создании устойчивой и самое главное, той, что вас устраивает, 32seс генерации можно закрепить мелодию еще на такой же отрезок. Посмотреть как она дальше развивается. Или можно сразу вернуть Длину контекста обратно на 130 sec. Соединив таким образом прошлый вокал и новый мотив.

Я обычно начинаю с припева. Потом подбираю подходящий куплет. И все это время используя направление расширение Before. Ну а при наличии цельной связки куплета и припева понятно, что с этим можно сделать. 😊 В принципе все что угодно, если честно. Udio богат тонкими инструментами обрезки, "окрашивания" и расширения.
ТО Boris
👍 6
02:07
Несколько важных моментов.

При создании а капеллы часто возникают проблемы с интонацией, ударением и пр. - на это не обращаю внимание - интересует тембр и особенности вокала. Часто использую первые подвернувшиеся стихи, но заметил, что на стихи С.Есенина получается лучше 👌

... Удалось сделать хороший вариант с живым голосом (похоже на RVC). Каждый человек обладает отличительным тембром, диапазоном, манерой. Пробовал сделать таким образом голос знакомой (профессиональной певицы). Но она ясно сказала, что тембр тот же, но манера не похожа*. Со своим голосом не готов пока показать результаты, хотя работаю над этим. Возможно у вас получится лучше. 😊

* объяснение этого
момента есть у Алексея.

При создании «виртуального исполнителя» 2-3 песни не дадут полной картины, нужно собрать целый «альбом». Тогда голос станет четко узнаваемым, будет понятно, какие особые черты он имеет.
ТО Boris
👍 2
02:09
Для экспериментов в качестве примера я взял мужской и женский вокал. Мужской из песни «Что тебе подарить» (мы уже с вами делали дуэт). Песню исполнял Николай Караченцов. Интересно было сделать в другом стиле в его исполнении «Кленовый лист», используя тот же вокал.

Женский вокал взял из песни на стихи моей знакомой (её идея появилась недавно после одного московского музыкального джема). Мне кажется там очень яркий характерный женский вокал, который и захотелось повторить в другой песне и с другим музыкальным настроением.

Все песни с дублями голоса сделаны лишь в качестве примера, специально для иллюстрации. Старался кардинально изменить темп и настроение первоначального вокала. На музыку сильно не обращайте внимание, обратите внимание на характеристики вокала. Насколько он, по вашему мнению, похож или не похож.

1. Женский вокал.
2. Пример женской а капеллы.
3. Повторное использование женского вокала с другой мелодией.
4. Мужской и женский дуэт как основа для мужского вокала.
5. Повторное использование только мужского вокала из дуэта.
ТО Boris
👍 1
02:12
И лайфхак дня.

Чтобы ваши композиции были визуально яркими, вы можете создать в телеграм боте Вжух @Wjooh_bot крутящуюся грампластинку с вашей мелодией. Выбрать подходящую обложку из собственной галереи и маску для пластинки.

Обратите внимание, для того, чтобы отправитель бота был скрыт при пересылке, зайдите в настройки отправки в левом нижнем углу и нажмите «Скрыть имя отправителя».

В начало поста ⬆️

#лайфхак
ТО Boris
👍 12
02:13
ТО Boris
👍 7
23 April 2025
AH
23:45
RVC: kits, weights или ... ?

Полгода назад я собрал голосовую модель для товарища, поющего только на русском. Сделал 2 англ. песни "с его вокалом" - он выложил без комментария и ... получил хорошие отзывы. Тут его знакомая, предложила ему спеть дуэтом, полагая, что он поет на англ. .. Упс! ... он не смог сам сделать замену тембра (RVC) на kits-ai и обратился ко мне.

ОК, иду на kits.ai, где у самого несколько моделей - печалька. До этого они отменили скачку результата (кавера) на бесплатном акк., а теперь и свои модели подгружать нельзя. Но осталась возможность делать преобразования с их моделями - у них хорошие как выбор, так и качество (см. ниже).

Ладно, иду на weights.gg - там все бесплатно (Борис обычно добавляет пока 😕), вроде есть какие-то лимиты, но я ни разу с этим еще не сталкивался.

Раз уж снова в RVC, я подготовил инструкцию, как собрать голосовой DS и создать модель. Вроде ранее уже писал, но тут о weights.

Также сделал несколько примеров для пояснения главных моментов с RVC.
👍 3
23:48
С октября 23 г. я собрал более 50 моделей для RVC из DS на разном материале - от студийных треков (24 bit/ 48 kHz), до разделенных (Split, vocal-remover) из готовых песен (mp3/4, 128 - 320 kbps) и даже из голосовых сообщений WhatsApp (ogg, 19-165 kbps). Также сделал множество конверсий, где исходные (reference) треки были разного качества - от студийных до также из Split. Ранние примеры и комментарии на сайте (L1, L2).

Важное с RVC:

1.
Модель стоит тренировать на чистом материале и трек для преобразования тоже желательно максимально чистый. Чистый в данном случае это без FX (reverb, delay, chorus), без шумов, др. голосов, наложения сольных инструментов (скрипка, саксофон и т.п.).

2.
Даже в этом случае (п.1.) нет 100% гарантии, что вы услышите песню "спетую" вами, потому, что:

3.
Тембр это "обертка", и если интонирование, манера пения в исходном треке очень яркая (характерные опевания, вибрато, глиссандо, динамические акценты и пр.), но вам такая манера несвойственна, то "надев" его (свой тембр) на трек, вы не получите убедительный пример вашего исполнения.

4.
Тут вопрос в том, "что ярче" - манера пения или тембр. Если у вас необычный тембр, а вокал в исходном треке обыкновенный, то вероятность успеха выше. Если наоборот, то шансы невелики.

Т.е. фактически, RVC - это умножение исходного вокала на тембр (краску). Ну вот, возьмем мы синий велосипед и (умножим) выкрасим зеленой краской. А форма то останется прежней! Так и с интонированием - его не спрячешь. Вот здесь подробнее об этом.

Сервисы RVC

Не так много мест*, где можно сделать свою RVC модель:

* Я не имею ввиду площадки Colab Google, Hugging Face или настройку всего на своем ПК - это требует все-таки явной IT подготовки, а в последнем случае, и мощного компьютера.

weights - бесплатно. Также есть приложение (W10), бесплатно.
kits - платный
mimicpc (ч/з Hugging Face) - платный
topmediai - платный
anakin (ч/з Hugging Face) - платный
voice ai - платный (приложение, W10)
replicate (ч/з Colab Google) - платный
vocalize fm - платный

Готовые модели

Большинство моделей в свободном доступе не очень высокого качества** (я не о тех, кот. на платных сервисах). Вопрос в том, из какого материала они собраны и насколько правильно натренированы. Т.ч. вряд ли удастся получить новую песню Майкла Джексона на свои слова, используя RVC... и спеть надо как Джексон, и модель иметь хорошую.

** наберите в weights в поиске Joe Dassin - увидите 12 моделей, причем, качество можно сразу оценить на тестовом примере. А Джексона там, похоже, больше 2-х сотен.

Хотя, некоторые артисты сами идут этим путем - популярный американский кантри-певец Рэнди Трэвис (Randy Travis) потерял голос уже как 10 лет и для "его новой песни" нашли исполнителя, кот. спел в его манере, а потом заменили тембр с помощью RVC.

aimodels , voice-models - библиотеки свободных моделей (библиотек много, но не все доступны из РФ).
👍 4 🔥 2
23:49
Примеры

Для демонстрации я взял песню "Сияй, как звезда". Сделал 10 треков - только 3-й купл. и часть припева. (AU - моя модель или голос).

1 Исходный женский
2 Исх. женский x AU (RVC, Pitch: -12)

3 AU исходный (вольная интонация и непоставленный голос).

4 AU исх. x Female Energetic Spanish (RVC, Pitch: +12)
5 AU исх. x Female Gritty Pop (RVC, Pitch: +12)
6 AU исх. x Lauren (Female, RVC, Pitch: 0)
7 AU исх. x Male Gospel (RVC, Pitch: 0)
8 AU исх. x Male Strained Rock (RVC, Pitch: 0)
9 AU исх. x Breathy Male Soul (RVC, Pitch: 0)

10 Хор из треков 4,5,6, 7,8,9 (RVC)
👍 4
23:52
Во 2-м примере моя модель на DS из чистого вокала и речи (Ru, En). Но есть огрехи, т.к. исходный трек получен с помощью Split из ИИ генерации. Особенно в припеве, где есть подпевки, а многоголосие усложняет определение тона (Pitch), что критично для RVC преобразования.

4-9-й примеры сделал в kits-ai с их моделями (три - Ж, три - М) - названия указаны. Модели мне представляются качественными (и multi-language*), т.к. не выдают ошибки в произношении даже на моем развязном примере.

* Модели, созданные на DS исключительно из английского пения и речи, обычно выдают результат с явным акцентом. Лучше выбирать итальянские/ испанские модели, т.к. эти языки ближе по фонетике к русскому.

Эти примеры ясно показывают, что интонация, манера сохраняется. Более того, несмотря на то, что звуковые волны отличаются (например, на отметках а и b) - интонирование (кривая Pitch) одинаковое. По этой причине, сложение 6-ти (!) треков с разными тембрами не создает хор - все участники абсолютно синхронны - пример 10.
👍 10
25 April 2025
AH
01:00
P.S. Приведение к единообразию или "Нормализация гендера".

Нашлось еще одно применение RVC ! Прослушивал снова недавние генерации к посту от 13 апреля и обратил внимание на интересную в муз. плане версию, кот. была вроде женской, при команде Male vocals. На самом деле агендерной, т.е. с нечеткими признаками М/Ж (такое, некстати, периодически встречается в ИИ генерациях).

Подумал, а если её "умножить" на женский тембр (RVC), т.е. привести к одному гендеру? Что-то подобное можно сделать и смещением спектра, но:

а) обычно результат слегка карикатурный,
б) в данной песне придется разбираться с каждой фразой/ слогом отдельно...

Ниже примеры:

1. Фрагменты: 0:00 - исходная, 0:18 - смещение спектра на 2 полутона вверх, 0:36 - смещение спектра на 2 полутона вниз. На мой взгляд достигается более четкое проявления М/Ж, т.ч. исходный действительно где-то посередине.

2. Полная песня. RVC преобразование на kits-ai с женской моделью Female Energetic Spanish. Конечно, качество немного снижается, есть легкий акцент, но теперь вокал точно женский.

В начало поста ⬆.
🔥 5 👍 1
4 May 2025
AH
23:51
Suno, Standup, Vocaloid

Удивительные времена: оживил фото студенческой рок-группы (~1980), продолжил соло нашего гитариста, кот. уже нет в этом мире. Наверное, можно было бы и клип собрать (кот. у нас никогда не было) - чуть больше материала, + платный аккаунт на Hedra и т.п. Да, прошлое порой неожиданным образом проявляется в настоящем.

Недавно МакКинли прислал генерацию в Suno стендапа (я и не знал, что такое есть) об истории Big Al* - невышедшего банка Vocaloid.

* Я работал с его бета-версией лет 20 назад. Задачи - повышение выразительности. Одна, как ни странно, - петь "мимо нот", получить речитатив. Другая - петь на русском. И то, и др., Yamaha, как бы по умолчанию не предусматривала.

Синтез речи, пусть и с "театральной интонацией", на мой взгляд более простая задача, чем генерация вокального трека. Здесь 90% определяется текстом. Подмешать шум аудитории? ... вообще ни о чём.

... А уникальный голос Big Al теперь получает вторую жизнь благодаря усилиям МакКинли и таким технологиям, как RVC.
👍 8
23:52
Спросил: "Откуда текст?" - МакКинли: "Попросил DeepSeek написать комедийную сценку".

Промпт: Comedian, Comedy, standup comedy, Live.

В Lyrics теги: [Crowd laughs], [Crowd erupts], [Audience wheezes], [Crowd loses it], [Claps, whistles], [Laughter], [Audience laughs/ cheers], [Crowd cheers wildly]... Прямая речь в кавычках. Если реакция зала внутри фразы, то в скобках - [deadpan] или (deadpan).

В общем можно, похоже, и самостоятельно все срежиссировать. Вряд ли буду делать что-то подобное, хотя, посмотрим ... Как-то в самом начале в Suno пробовал сгенерить музыкальную сказку ("Колобок") для внука, но там были такие косяки с произношением, что ребёнку, учащемуся говорить, явно бы навредило.

На стендап-трек МакКинли я собрал ролик, анимировав (Lip Sync) в Hedra его же картинку. Терпения на бесплатном акк. у меня хватило лишь на одну генерацию (0:14-0:25), все остальное время - подтасовка (реверс, растяжка и т.п.). Где-то использовал "перенос мимики" (face to face) c видео на картинку. Но сделал это не очень качественно - там желательно и в видео, и в картинке иметь четкие очертания лица, да еще и в портретном / квадратном формате.

Голос в ролике от Suno - у меня нет RVC модели Большого Эла, есть у МакКинли, и одну мою песню он как-то сделал - в "Спорт" мой вокал был "обернут" тембром Big Al'а. Правда, тональность для него не самая удобная, была бы исходная на квинту ниже - прозвучало бы интереснее.

У Big Al был (и есть!) действительно удивительный тембр. Что-то подобное было бы неплохо иметь и в Suno. Появится время - попробую. См. примеры:

1. "Гимн PowerFX" (Big Al, речитатив). PowerFX - шведская компания, один из разработчиков банков Vocaloid.

2. "Помоги мне тебя понять". А.Устинов. Vocaloid: Miriam & Big Al. Ru.

3. "Sport". Песня с CD "Место под солнцем" (2006). Обновленный вариант: А.Устинов х Big Al (RVC).
23:55
👏 1
23:55
1. Big Al, речитатив
23:57
3. AU x Big Al (RVC)
👍 4 👏 1
5 May 2025
AH
02:02
P.S.
1.
Сначала сделал 5 генераций* (10 треков) этого же текста на русском. Было несколько ошибок с ударением, где-то неверная интонация (вопрос/ утверждение). Да, и нигде не сработала команда [Brutal voice] - видимо для стендапа "привязаны" определенные голоса. #4 - одна из версий.

2. Затем еще 5 (10 треков) - попробовал свой речевой DS (60 сек), но потом просто записал 3-4 предложения из Lyrics (~20 сек), а в итоге генерировал всего из 11 сек. #5 - одна из версий.

Выводы:
а) голос (из DS) в принципе сохраняется, но искажения большие. Иногда голос заменяется на др. М и даже Ж.
б) команды шума зала не всегда исполняются.
в) Suno в 50% генераций пытается добавить музыкальное сопровождение и "попеть".
г) ну ..., и как часто с DS, комкает/ проглатывает начало Lyrics.

* все это с v3.5

В начало поста .
👍 6
02:03
#4 (дефолтный голос Suno)
AH
12:56
#5 (на своём коротком речевом DS)
🔥 3
9 May 2025
AH
06:01
С праздником, с великой победой!

Понимаю, все сложно и не для всех однозначно. Особенно, после того, как нас 30 лет отучали любить свою страну. Везде неидеально. Был в Швейцарии, Германии, Франции, Италии, Нидерландах, США, Канаде, Турции, ОАЭ, Южной Корее, Вьетнаме, Таиланде, на Мальдивах ... до 91 г. - почти во всех республиках СССР, учился в Минском ВИЗРУ ПВО.

...В 2006 на Frankfurt Musik Messe в присутствие партнера, индуса из США, говорил с владельцем английской фирмы. Наша разработка, со слов немцев и шведов, опережала английскую на 5-6 лет... Думал о сотрудничестве, наивный... Только после поездки, вспоминая его надменное лицо, я "догнал": индус для англичанина - раб, даже если образованнее и в 100 раз богаче, а инженер из России - враг, даже если занят той же темой... Конечно, не все такие.

Фашизм, на мой взгляд, начинается с одной вещи - внушения себе, своему народу, что вы выше/ лучше других от рождения. Действительно, как все просто - можно ничего не достигать, зачем? И ценность чужой жизни = 0.
16 👍 2
10 May 2025
AH
02:22
Цифровые отпечатки

Привет, сегодня несколько новостей из мира музыкального ИИ.

Udio заявила, что интегрирует технологию аудиоотпечатков и идентификации контента Audible Magic непосредственно в свою платформу. Audible Magic - сервис, который предоставляет услуги идентификации контента социальным сетям, звукозаписывающим лейблам и т.д.

Это означает, что Audible Magic создаст реестр отпечатков произведений в момент создания музыкального трека. Когда пользователи создают музыку с Udio, каждый трек будет автоматически зарегистрирован в системе, создавая отпечаток, который следует по всей цифровой цепочке.

Любая платформа, а в первую очередь это, конечно, YouTube, Shazam, Spotify, Apple Music, да и любой крупный стриминговый сервис, будет видеть кто и когда создал конкретный трек. Решение, возможно, спорное и как это будет реализовано точно неизвестно. Разработчики уверяют, что это будет внедрено в течение следующих нескольких месяцев и об этом будет заявлено.
ТО Boris
🤔 3 🔥 2 👏 1
02:24
Submithub.com AI song checker

Но и без внедрения цифрового отпечатка можно довольно достоверно узнать кто создатель музыкальной композиция - ИИ или человек.

Например, сервис Submithub позволяет с довольно высокой точностью определить, как был создан трек.

Эта модель преобразует аудиофайлы в спектрограммы (визуальные представления звука, которые показывают частоту и интенсивность с течением времени), а затем анализирует с помощью методов компьютерного зрения, чтобы определить, был звук создан ИИ или людьми. Можно загрузить собственный файл или отправить ссылку с YouTube / Spotify.

Я попробовал много различных вариантов созданных на разных ИИ - он определяет довольно точно. Особенно композиции c вокалом. Интересно, что «человеческие» каверы, измененные с помощью ИИ, сервис точно не определяет, а также чисто инструментальные композиции. Кроме этого, сервис еще не обучен на датасете новой версии Suno 4.5.

Также на этом сайте есть довольно интересный сервис, который поможет помочь определить жанр песни.
ТО Boris
🔥 3
02:29
Оплата сервисов из России

В текущее время довольно остро стоит вопрос оплаты зарубежных сервисов из России. До февраля пользовался сервисом Delims, но он больше не работает.

Также пользовался сервисом через телеграм @WantToPayBot. Довольно удобно - можно создать виртуальную карту, как предоплаченную Prepaid, для оплаты сервисов, так и пополняемую Visa Easy или даже Visa Pro. Всё просто и прозрачно, но ценник, конечно, дорогой.

Буквально несколько дней назад для того, чтобы попробовать новую версию Suno 4.5 по наводке Алексея воспользовался сервисом "Плати легко" через телеграм @paysaas. Тут нет выпуска карты, общение происходит через оператора, оплата через СБП. После оплаты мне предложили реквизиты карты и адрес. 10 долларов обошлись в 1160 руб (брал без страховки). В текущих реалиях считаю это вполне вменяемый ценник.

Это не реклама, никаких реф. ссылок я не даю. Исключительно личный опыт с сервисами, которыми пользовался. Уверен многим эта информация будет полезна.
ТО Boris
👍 10 👏 1
02:31
И лайфхак дня.

В новой версии Suno 4.5 справа сверху в поле Описания стиля появилась кнопка Creative Boost, что по сути является Масштабированием запроса, как у сервисов генерации изображений.

Например, при вводе "Blues, blues rock, female vocal, melodic, raw" и при использовании этой функции, система выдаст более креативное описание вроде "Blues rock track with raw female vocals, opening with expressive electric guitar riffs and steady drum groove. Basslines lock in with drums for a driving feel. Verses feature moody guitar licks; choruses swell with melodic lead lines. Bridge introduces a soulful guitar solo, closing with intensity".

Но кроме этого, туда можно ввести название определенной группы или имя исполнителя. Например, Nirvana или Madonna и Creative Boost преобразует в описание, подходящее по стилю.

Но почему-то туда пока завезли не всех крупных исполнителей. Например, на Metallica или Ella Fitzgerald, кнопка не реагирует.

В начало поста ⬆️

#лайфхак
ТО Boris
👍 13
16 May 2025
AH
23:39
Чувство ритма и Абсолютный слух

Каждый шаг в развитии научно-технического прогресса дает миллионам новые возможности выражения. Музыка - не исключение. Когда-то давно исполнитель сам делал себе инструмент - духовой, струнный, перкуссионный. Позже инструмент делал мастер, а музыкант овладевал приемами игры... В середине прошлого века появляются ЭМИ, в 80-х - синтезаторы с авто аккомпанементом - можно "пяткой левой ноги" нажать на клавишу и заиграет музыка!.. Теперь все в телефоне.

Где предел прогрессу? Наверное вот: "... просыпаюсь, мысленно командую Play - из колонок (или прямо в мозг) звучит новая песня моего любимого артиста (или моя)"... К слову, в 2019-м ко мне обращалась фирма (Беларусь/ Польша) на предмет генерации музыки на основе сигналов головного мозга (ч/з нейро интерфейс). А может уже все сделано?

Если честно, меня радует, что многие начинают не только генерить с ИИ, но и сами учиться. Кто-то начал петь, кто-то купил гитару/ синтезатор... ОК, тут 2 момента: музыкальный слух и чувство ритма.
👍 3 1
23:40
7 + 4 + 5 = 16 лет! Это время обучения музыке (между прочим) - ДМШ, колледж, консерватория.

Из письма [1]: "... не так давно начал заниматься танго, но определённо не попадаю в ритм. Сам это слышу, но исправить пока не могу... вообще не могу даже определить сильные доли"

Из другого [2]: "Петь совсем не умею. Правильно я поняла суно может все ноты настроить, так?"

Начну с главного: у всех говорящих (и слышащих) ЕСТЬ музыкальный слух. И эта присказка про "медведя" - бред! Доказательства простые:

а) Вы понимаете интонацию малыша 2-3-х лет (согласие/ несогласие), когда это даже не междометия, а отдельные звуки.

б) Произнесите с закрытым ртом не-не, ага. Сначала оба нейтрально. Затем недовольно. Потом позитивно (с улыбкой). Малыш и взрослый, почувствуют интонацию/ эмоцию этих звуков.

в) Вы тихо задаете вопрос человеку, который засыпает и ему лень отвечать. Он делает выдох и вы (не видя его лицо!), слышите, что он сделал выдох на улыбке.

Так вот, все это ВАШ анализ малых изменений высоты тона и спектра. Более тонких, чем изменения частот у нот музыкального лада. Т.е. со слухом у вас все в порядке, а чтобы он стал музыкальным, надо начать им пользоваться. (Об абсолютном чуть позже).

! В любом измерительном приборе есть эталон того, что нужно измерять. В теле человека нет кварцевого генератора или чего-то подобного, чтобы измерить частоту (ноты) или время (ритм).

Чувство ритма

Тут все сложнее*. Когда-то я разработал методику развития этого чувства - хотелось помочь поющим клиентам студии, выпадающим из ритма. Если коротко (Ответ [1]), то:

а) больше шагайте под музыку - тело, если не эталон, то инструмент.
б) шаги - скорее четверти (1/4), далее смотрим, где начала частей, сбивки ударных, (смена аккорда) - обычно это начало такта/ сильные доли...

* Одно время в нашей рок-группе играл ударник, студент консерватории (т.е. владеющий игрой не только на установке, но и литаврах, колоколах, вибрафоне) - такого случая НЕ держания темпа я никогда еще не видел. Да, в классике важна агогика (т.е. отклонения - замедления/ ускорения), но... А вот парень, не знающий ни нот, ни аккордов, держал железный темп, как кварцевый генератор 😁.

Если подробно, вот цикл статей с примерами. (Методика апробирована в нескольких ДМШ РФ по инициативе учителей, хотя её нет в официальном министерском реестре).
👍 11
23:42
Пение и абсолютный слух

Знакомый - любитель, с потрясающими вокальными данными, стеснялся идти один на урок к профессионалу, пошли вдвоём ... 2 важных момента: как правильно дышать, как не зажимать связки и... диапазон расширяется, высокие ноты берутся. Это работает уже после 2-3-х занятий! Я, правда, в своей манере и забросил, и забыл...

У меня не абсолютный слух - т.е. я не скажу на слух, какую клавишу нажали на пианино, но ... ~ в 2011-м моя команда разрабатывала обучающие муз. игры и по предложению одного детского педагога (г.Томск) мы создали игру-тренажер по этой теме... Игры тестировал сам, пройдя в этой несколько раз задания, понял, что на слух определяю ноты! Т.е. можно развить даже абсолютный слух.

Ответ [2]. Да, Suno v3.5 может поправить ваш вокал как по высоте/ верным нотам (т.е. autotune), так и по ритму. Но чем хуже вы спели, тем больше изменений внесет ИИ. Так что лучше все-таки немного позаниматься своим пением.

Если решите в игровой форме коснуться музыкального обучения и слегка прокачать свои музыкальные навыки, предлагаю проверенные педагогами и временем игры:

Звуковысотные движения

Музыкальные тембры

Музыкальная викторина

Абсолютный слух

P.S.
Музыкальную шк. с 3-4 класса ненавидел и пропускал. Родителям за неё стал благодарен в кл. 7-8-м, когда собрал 1-ю электрогитару и попал в ансамбль... Три моих сына бросили ДМШ ч/з год-полтора... ни одного из внуков пока "не подбил", но... Нужны талантливые педагоги и др. уч. программы. Если бы в ДМШ была поп/ рок-группа, jazz-бэнд, разрешалось сочинять/ импровизировать, я бы из музыкалки не вылазил, наверное.

Когда-то я делал подборку из науч. исследований о влиянии муз. образования на общее развитие, вроде: "... исследования также подтверждают, что обучение детей музыке приводит к долгосрочному повышению визуально- пространственных, вербальных, математических и исполнительских способностей." Т.е. в целом у детей из ДМШ лучше с речью, памятью, математикой, языками, физкультурой. Я не о выращивании лауреата, солиста Большого театра, а о раскрытии разных способностей ребенка.

В начало поста
👍 15 🔥 7 1
24 May 2025
AH
00:00
SPA*: Новая версия 1.4

* Song Prompt Assistant

Уфф ... учел замечания, многое что добавил:

1. Параметры Prompt и Template можно задавать независимо.
2. Порядок параметров можно менять.
3. Есть сохранение/ загрузка Пресета.
4. Prompt и Template можно сохранять в *.txt.
5. В тегах Song Structure есть авто-заполнение.
6. Основные теги выделены цветом.
7. В параметр Performer добавлена группа Theme (к/ф).

При этом, так и просится на язык фраза: "... работа проделана большая и бесполезная" (почти) 😢. Потому, что:

а) для разных ИИ систем нужны разные задания;
б) сервисы постоянно обновляются;
в) по-хорошему, в приложение надо собственно и ИИ интегрировать.

Т.ч. не факт, что ч/з полгода все это не устареет.

Ну, ... ладно, зато немного отвлекся на что-то для души. Надеюсь, кому-то SPA будет полезен как тренажер/ "справочник", где многое собрано в одном месте.

Ссылка на SPA v1.4

SPA v1.4 Help

Пост с предыдущей версией с более подробным пояснением идеи приложения.
👍 5 🔥 5
5 June 2025
AH
00:16
Знаменитости в Suno ("с бубном")

Что-то подобное я уже пробовал, но в этот раз более подробное исследование. Все на основе DS (полный, вокальный). Напомню - Suno не пропускает DS, если распознает в нем известный текст или мелодию. Способ преодоления этого ограничения уже пояснял... Также отмечал - в Sonauto есть генерация популярных артистов, прямо по указанию имени в Style. Т.е. в Sonauto можно сгенерить DS, который примет Suno, - голос, манера будет певца, но мелодия/ текст в базе отсутствуют.

Моя схема:

1. Пишу промпт для генерации текста, типа: "Я молодая, красивая девушка, скучаю на пляже...".
2. Перевожу в Google Translate на En, Ital, Spanish...
3. В Suno генерю текст (на языке певца).
4. В Sonauto генерю песни (важно адекватно задать Style - близко к исполнителю).
5. Выбираю удачный трек и собираю DS.
6. Загружаю DS в Suno.
7. Генерю на русском (или др.).

О нюансах писал ранее. Лучше до этой схемы еще раз ознакомиться с постами о полном и вокальном DS.

Каждая новая копия хуже оригинала? Да! 😢
👍 6
00:16
Chris Rea, Demis Roussos, Celentano

Выбрал хорошо знакомые всем (почти) голоса. Собрал полные DS (т.е. фрагмент песни, где и вокал, и музыка), загрузил в Suno, сгенерил примеры. Тексты - "Жена чужая" / автор неизвестен, "На улицах Палермо" / Нина Орлова. В Style - или пусто, или сольный инструмент. Любой тег относящийся к вокалу недопустим - Suno и так порой ставит дефолтный голос или меняет гендер.

Shakira

Для этой дамы, кроме 2-х полных DS (файлы 86ShF. mp3 и 132ShF. mp3), собрал вокальный по принципу речевого. В нескольких треках от Sonauto разделил voc/ inst., затем перемешал вокальные фразы, чтобы нарушить явную ритмику и тональность (файл ShVc1. mp3). Это дает бОльшую свободу в задании Style. Пробовал:

а) Chillwave, Saxophone solo
б) Brazil
в) Bossanova, Latin Jazz, Guitar solo

В генерациях из этого DS получилось (Key-BPM): F#-115, C#-132, C#m-130, E♭m-147, C#-133, E♭m-133, E♭m-76, E♭m-102, A♭m-120, C#m-93.

В начале примера фрагмент DS, затем фрагменты генераций. Текст "Гейша" / мой, последний фраг. - он же на испанском (Google).

В примерах на полных DS также в начале фрагмент из DS, затем примеры генерации на русском.
👍 3 2
00:17
на полном DS
00:18
на полном DS
00:18
на полном DS
😁 1
00:18
на вокальном DS
00:19
на полном DS
00:19
на полном DS
00:20
Выводы:

1.
Способ не идеальный, как и вообще все с DS (Upload Audio), но рабочий.

2. Потери на каждом шаге. Что-то в Sonauto, что-то в Suno. Т.е. каждая копия хуже оригинала. Голоса в Sonauto чище суновских (v3.5), но музыка грязновата.

3. Русский в Sonauto много хуже, чем в Suno. Т.ч. генерить лучше на языке певца (Челентано надо было сгенерить на итальянском, да и стиль выбрать ближе к нему.)

4. Синтез вокала в Suno (v3.5) трех-компонентный (тембр, язык, мелодия) уже отмечал. Это дает гибкость системе, но с др. стороны увеличивает потери в характере, узнаваемости исполнителя.

5. Годных треков в Suno, где артист узнается (на мой взгляд) - 20-30%.

P.S.

Все на v3.5, платного у меня нет - надо Бориса попросить потестить эти DS на v4.5 😊 ...

До сих пор удивлялся Sonauto с их прямым доступом к артисту, у кого-то суды и запреты, а тут ... Пришла мысль - а ведь до ИИ были пародисты и могли известным голосом петь/ говорить что хотели, вроде ничего не нарушали... В студенческой рок-группе у нас в одно время был вокалист без муз. образования и знания английского, но копировал почти всех... Жаль нам тогда не пришла в голову мысль сочинить "новую песню" Nazareth или Bad Company и всем говорить, что с "нового" альбома - тогда же не было интернета, сетей и пр. - могло прокатить 😊

Все использованные в примерах DS - в архиве ниже. Число в нач. имени - BPM.

В начало поста
👍 6
00:22
Набор использованных DS.
14 June 2025
AH
21:28
Sonauto: имя артиста или стиль?

Продолжение предыдущего поста в некотором смысле. Хотел сгенерить «новую» песню Стинга, вроде Mad About You, Fragile, Shape of my head, Fields of Gold. Но Sonauto выдавал что-то явно джазовое. Да, я знаю, что Стинг им занимался, да и в популярных треках у него почти всегда jazzy... Ничего с поп-ритмом не получилось, несмотря на указания в Style - или имя артиста доминирует, или так для Стинга разработчики собрали набор треков для обучения ИИ.

В общем, решил проверить этот момент на отличающихся артистах (George Benson, Nazareth, Nirvana, Ray Charles, Sting) — задал для всех разные, но одни и те же стили. Сделал 8 промтов (ИМЯ артиста в начале каждого!), здесь привожу генерацию для no style (только имя) и результаты для 4-х.

5 артистов (треков). Для каждого стиля* 2 вар. по 14 сек:

0:00 --- (no style)
0:29 ballad, acoustic
0:57 bossa nova, percussion, acoustic guitar
1:23 hard rock
1:51 pop punk, electric guitar

* помните, что [pop punk] и [pop, punk] — разные стили?
🔥 4 1
21:31
Что имеем? Не совсем то, что в стиле. Каждый поет близко к "своему":

George Bensonjazz, jazz fusion, smooth jazz, soul jazz
Nazareth (Dan McCafferty) - hard rock, blues rock, heavy metal, soft rock
Nirvana (Kurt Cobain) - grunge, alternative rock, punk rock
Ray Charles - R&B, soul, blues, gospel, country, jazz
Sting - pop, new wave, post-punk, soft rock


Показалось, что лирики, джаза больше. Может из-за текста, не знаю. В этих 5 треках он одинаковый. Я переписал "Yesterday" / Thе Beatles другими словами, сохраняя ритмику, почти везде рифму... теряя, конечно, смысл. Suno с оригинальным текстом трек не пропускает, а возиться с перекомпоновкой тактов (ломкой текста) не хотелось.

Собрал несколько DS из Sonauto-вских треков, сгенерил несколько треков* в Suno v3.5 с пустым стилем (no style):

* "Невозможно" – мой текст, "Vibration" - фрагмент вебинара "Изобилие" Aлёны Т.
👍 3
21:32
DS, Nazareth (Sonauto)
21:33
Suno on 90NZFso
21:33
DS, Sting (Sonauto)
🔥 2
21:34
Suno on 120STFso
21:34
DS, Sting (Sonauto)
😁 2
21:36
Выводы:

1.
Использование имени артиста в генерации в Sonauto является определяющим, остальные теги почти не влияют на результат. (Имя - на первом месте в стиле. Менять местоположение имени пока не пробовал).

2.
Большинство лирических, джазовых треков имеют переменный темп, вариации в фразировке. Как будто в "партитуре" было указание ad libitum (т. е. сыграть "по желанию", "по усмотрению" исполнителя).

3.
В генерациях артиста муж. пола встречаются треки с жен. голосами. Это, похоже, связано с тем, что в набор образцов для тренировки ИИ включены песни, исполненные дуэтами или с жен. бэк-вокалами.

4.
Генерация Suno на основе DS отталкивается от ритмического шаблона Lyrics или его отсутствия (проза) и приводит к нормализации и темпа, и ритмики, и мелодии (если они в DS изменчивые). Suno нередко добавляет инструменты по своему усмотрению - обычно это связано с полнотой исходного материала. Т.е. добавки к пению под гитару более вероятны, чем к насыщенному поп-треку.

5.
DS лирического характера "работают" тем лучше, чем лучше разделение инструментов. Так голос + акустическая гитара (или мягкое фортепиано) - удобный материал. А вот DS голосом на фоне оркестровых струнных или pads с широким спектром даст не такой чистый результат.

P.S.

1) Честно говоря, получил удовольствие от этого эксперимента - много новой музыки "от" известных артистов и много материала для сборки DS для Suno 😊. Жалел лишь о том, что:

-- не так хорошо знаком с их творчеством, чтобы при прослушивании мог сказать что-то вроде: "так они звучали до 1978 …" или "ну, это точно уже начало 90-х, когда поменяли басиста..."

-- не так хорошо знаю английский, а то бы взялся генерить для себя лично "новые альбомы" любимых исполнителей.

2) а еще бы очень хотелось услышать искреннюю реакцию самого артиста на подобные ("его") треки от ИИ 😊

В начало поста
👍 12 3 🔥 2
21 June 2025
AH
20:51
Теория слуха (… и ИИ)

Сейчас, проектируя новый гаджет, часть электронщиков используют готовые модули и могут не помнить закон Ома... Музыканту не требуется знание акустики и психологии восприятия, пока он не задастся целью разобраться почему именно так устроена скрипка или флейта... И не странно, что большинство выпускников консерватории не могут ответить, например, на такие вопросы (это не наука, это элементарные вещи!):

1. Пианист определит инструмент, если записать ОДНУ ноту на рояле и воспроизвести аудио "задом наперёд" (reverse)?

2. В чем примечательность частоты 16 Гц для всей музыки в целом?

3. Из-за каких особенностей секунда (например, C и C#) звучит неприятно, а квинта (например, D и A) – приятно (консонанс / диссонанс)?

Я не предполагал, что опыты с муз. ИИ вернут меня к психоакустике и теории слуха. Задумался об этом почти год назад (см. P.S. к статье), а теперь уверен, что ИИ радикально изменит прежние представления.
👍 2 🔥 1
20:52
Понимаю, что эти "тонкости" важны очень небольшому числу людей, использующих муз. ИИ, но для меня феномен генерации - самое интересное, с чем я столкнулся в последние пару лет. Музыке, на мой взгляд, крайне повезло и вот почему.

Генерация текста. Смысл, семантика слов, фраз весьма размыта. Здесь как бы "нет физики" - строгих, однозначных значений и робот очень часто выдает глупости. Особенно в стихах, и мне кажется, в русском бреда больше, чем на англ.

Генерация картинки. Здесь "физики больше", т.к. обычно это проекция объемной среды, физических объектов (3D) на плоскость (2D). И если бы ИИ учился на 3D объектах (то, что в комп. играх), то ошибок бы было меньше.

Генерация музыки. Здесь "только физика"! Даже самые первые генерации на основе спектра выдавали хоть и низкого звукового качества, но правильную музыку - там не было "косяков", аналогичных "шестому пальцу", "третьей ноге" или "коленок в обратную сторону". В спектрограмме (волне) именно то, что было на самом деле. А в музыке, акустике нет нарушений физики (к тем, что привнесла электронная мы уже привыкли)...

В общем, меня поразило то, как муз. ИИ соблюдает ВСЕ правила сочинения и исполнения, которые нигде не описаны. А ведь роботу нужны точные команды, инструкции, чтобы музыка, которую человек распознает, слышит, была верной... Вот здесь то и появилась идея, что слух работает по аналогии с распознаванием зрительных образов. То, что устройство уха ("железо", hardware) - лишь малая часть системы, основа - мозг (ПО, software), было ясно давно... Но теперь становится понятнее, как можно обновить теорию слуха.

Мало к кому я мог обратиться - написал двум знакомым за рубежом, а двум нашим послал голосовое сообщение (ниже). Из ответа Юрия Исакова, однокурсника (НГТУ/НЭТИ), члена AES (Audio Engineering Society), понял, что что-то подобное уже происходит.
👍 6 🔥 2 1 👏 1
20:53
Сокращенный* текст голосового

* не так часто использую ИИ для "общих" задач: взял это голосовое, перевел в текст, затем "попросил" сократить и ... слегка поправил, однако 😊

Хочу обсудить вопрос, который меня волнует несколько месяцев.

Занимаясь генерацией музыки с помощью ИИ, пришел к выводу, что модели, обученные на спектральных картинках музыкальных произведений, способны улавливать и воспроизводить все муз. закономерности: гармонию, ритм, форму, нюансы, такие как сбивки, брейки, вступления, импровизации, глиссандо. Модель способна генерировать музыку, обучившись даже на коротком отрывке композиции, сохраняя стилистику и особенности исходного материала. Иногда бывают сбои, но они объяснимы.

Я вернулся к теме "интонарного пространства"*, возникшей 20-30 лет назад, когда занимался моделированием муз. исполнения. Тогда было сложно формализовать игру гитариста, саксофониста в виде формул, хотя первые алгоритмы были похожи на "обучение с учителем"**. Сейчас, наблюдая за генерацией музыки через "картинки", я осознаю, что инструменты, представленные в виде графических объектов, легко распознаются человеческим мозгом. Вложить в один алгоритм все многообразие муз. нюансов человеку невозможно, но ИИ генерация музыки через визуализацию – это способ обойти эту сложность.

Кажется, что слуховая система человека работает не так, как предполагалось - не только за счет 20 тыс. волокон, передающих сигналы в мозг. Эта информация, возможно, не является основой для вычленения объектов из звукового потока, как, например, ноты, речь в шуме или голос в многоголосии. Зрительное восприятие, где мозг натренирован на распознавание образов, может быть аналогом. Идентификация объектов, как скрипка по визуальному образу, может происходить схожим образом в слуховой системе. Возможно, чтобы лучше понять механизмы слухового восприятия, необходимо обратить внимание на модели распознавания графических образов, что думаешь?

* "Музыка, электроника, интонирование". ISNB 5-7196-0477-4 / 1993 г.
"Моделирование музыкального исполнения: возможности и ограничения". ISNB 5-9294-0023-7 / 2002 г.

** Style Enhancer 4.0
👍 3
20:59
ОТВЕТЫ. Будет здорово, если вы сначала прочитаете ВОПРОСЫ😊

P.S. Когда-то давно я читал цикл лекций "Секреты музыки (на пальцах)". К сожалению, так и не нашел время, чтобы сделать версии с графикой, но … Возможно, кому-то они будут полезны, т.к. при всех изменениях в муз. технологиях, основы как акустики, так и психологии восприятия неизменны.

В начало поста🔼
👍 17 🔥 2
30 June 2025
AH
22:57
Riffusion: от наброска к ...

Улучшение ИИ исходной фонограммы было бы очень полезным для многих, и любителей, и профи. Как с домом - свой эскиз отдаем архитектору, он с инж.- проектировщиком, строителями обновляет старый объект - все грамотно, но идея наша 😄.

На днях решил вернуться к Swap Vocal/ Sound в Riffusion - как сейчас может работать такая схема ? :

1. Спеть песню под примитивный аккомпанемент.
2. Сделать Swap Vocal (SV), т.е. задать Style и изменить голос.
3. Взять результат п.2. и сделать Swap Sound (SS), т.е. задать Style аккомпанементу и поменять его... Все новое - "вуаля" или не?

Взял текст "Девочки" (CD, "Место под солнцем", Vocaloid/ Leon, 2006), сочинил др. мелодию, забил простой минус в OnyxArranger 2.1, записал в GM на Yamaha MU100R, спел (вокал не тьюнил). Это как бы DS в полную длину песни (черновик).

п.2. прошел дважды - [Male ... emotional] и [Male ... hoarse], + для каждого вокала по 2 вар. Style Sound *.

* вся песня, чтобы показать работу стилей.
👍 3 👏 3 1
22:58
DS (черновик), фрагм.
😱 3
22:58
Swap Vocal. [Male vocals, emotional], фрагм.
👍 4
22:59
Swap Sound. [Big band, orchestra, brass section solo]
👍 2 🤔 1
22:59
Swap Sound. [Bluegrass, country, harmonica solo]
👍 1
23:00
Swap Vocal. [Male vocals, hoarse voice], фрагм.
👍 1
23:01
Swap Sound. [British rock, overdriven guitar solo]
23:01
Swap Sound. [Eurodance, electronic, lead synth]
👍 1
23:02
Еще решил изменить свою песню "Autumn in Central Park" (ACP) с Vocaloid. Она очень простая, родилась мгновенно*, а в не в процессе сочинения "на тему".

* В конце 2004 я записывал музыку к индийскому фильму. Жил на Манхэттене, на против озера, в высотке, где частично снимали "Секс в большом городе", куда заглядывает Р. де Ниро, жил Шварценеггер. В общем - "центр мира" ... Но ч/з пару недель что-то накатило и ... на прогулке в парке в голове возникла эта мелодия и тематика.

Исходная песня интересна в части ритмики: Drums на 4/4, все остальное - на 3/4 ! Riffusion (Swap Sound) нормализовал к 12/8 (или к 3/4) - эта версия кажется мне очень вкусной, хотя жалко, что моя импровизация на ф-но исчезла (от 2:22 во 2-м треке). Англ. текст на мою "рыбу" на русском написал коллега А.Яковлев.
👍 2
23:03
DS (черновик), фрагм.
👍 1
23:03
Swap Vocal. [Male vocals, emotional]
👍 1
23:03
Swap Sound. [Latin jazz, nylon guitar solo]
👍 2
23:05
Важное / выводы:

Возможно, что многие уже делают подобные обновления - рестайлинг своих песен, я и сам пробовал похожее ранее (L1, L2). Но в данном эксперименте все чуть осознаннее 😊. Правда, глубоко я не копал - все с режимами по умолчанию. Форма, BPM и в целом тональность песни сохранятся при Vocal и Sound трансформации.

1.
Если вы на Free акк. и еще не истекло Studio Time - загрузите сначала песни для переделки, т.к. по его истечению Upload Audio станет недоступным, хотя Swap'ы будут работать. Макс. длина трека - 4 мин, т.ч. лучше проверить (или подрезать) заранее.

2. При Swap Vocal введите Lyrics сами (хотя Riffusion распознает и на русском), причем с реальной структурой песни [Intro], [Verse], ... [Bridge] и т.д.

3. Если делаете свой DS (полный, вокальный), то запись под гитару лучше делать с метрономом, хотя гармония, мне кажется, будет читаться хуже, чем с Piano, Bass + Hi-Hat (Drums). Все протестить не удалось т.к. Studio Time закончилось 😢.

4.
Swap Vocal меняет мелодию, как в ступенях, так и ритмике - иногда очень творчески (в полож. смысле), причем, учитывая исходную гармонию (если она явная).

5.
Swap Sound почти не соблюдает даже типовую и простую исходную гармонию. Похоже это связано с выбранным стилем. Я вот ни разу ни в одной ИИ системе не видел сохранения хроматического баса в секвенции, типа Am, Ab5+, C/G, D7/F# ...

В итоге этот путь, конечно, заметное улучшение и обновление песни, но в очевидном соавторстве 😊. При всем этом, я намерен когда-нибудь освежить многие из своих треков.

В начало поста
👍 9 🔥 3 🤔 3 2
6 July 2025
AH
22:46
Riffusion: генерация мелодии и гармонизация

Продолжил тесты - а) как при Swap Vocal (SV) новая мелодия следует исходной гармонии, б) насколько хороша гармонизация при Swap Sound (SS)?

Взял свою песню "Идеальный день"*. Там речитатив местами, да и не совсем простая гармония:

Verse
: (нач. в C) C7+|F7+|C7+|D#5+| C7+|F7+|C7+|G5+| ... (далее то же в D)
Chorus: C7+|C7+,C#dim,Dm7/C| Bdim|Dm7,C#7,C7+| - дважды

Сделал 2 вар. Swap Vocal (Var. 100%):

1a/b, Style: Male vocals, ironic, music show
2a/b, Style: Male vocals, brutal voice, ironic
Все вокалы в одном примере: 1a,1b,2a,2b (Verse 1,2,3,4)...

Для вокала 2b сделал Swap Sound. (Var. 100%). Style: Funk traditional 1980s, male vocals, emotional singer, distortion guitar solo. Этот вокал резковат, если бы собирал со своим минусом, то сделал бы Split Voc., прибрал 2,5 кГц (нижн. порог певческой форманты) и поднял 450 Гц (грудной резонатор).

* написал в 21 г. после вебинара Lee с тем же названием.
👍 3
22:47
Исходная
👍 2
22:48
Swap Vocal. 1a,1b,2a,2b (Verse 1,2,3,4)
👍 4
22:48
Swap Vocal / Sound
👍 2
22:50
Взял один из вариантов "Год новый станет...". Текст мой, исполнение Марины А. (кажется, генерация Suno), 110 BPM, G minor. Гармония в исходной такая:
Verse: Cm|D7|Gm|Eb/C|Cm|F6|Bb|Gm
Chorus:
Cm|F|D7|Gm7|Cm|F6|D7/A|Gm

Сделал 2 вар. (a/b - в одном треке) Swap Vocal:
1a/b (Voc. variation 100%). Style: Female vocals, opera singer
2a/b (Voc. variation 50%). Style: Jazz vocalist, female vocals, scat

‼ Также попробовал поменять чистый вокал (без муз.) - в этом случае у Riffusion как бы нет подсказки об исходной гармонии (в аккомпанементе) 😊. Сделал Swap Vocal (Voc. variation 100%). Style: Male vocals, tender singer. Итог:

MAVc_SV1a.
ИИ анализ: E major, 64 BPM. Мой: E major, 124 BPM. Текст был полный, но Riffusion сгенерил только Chorus (дважды):
Chorus: A|B7|G#m|C#m|A|B7|G#m|E| (мой вар. гармонии)

MAVc_SV1b
. ИИ анализ: D minor, 91 BPM. Мой: D major, 94/102 BPM. Riffusion сгенерил Verse и Chorus, но в разных темпах:
Verse: D|D|A7|D|D|D|A7|D| (мой вар.)
Chorus:
D,D|D,C|C,C|C,D|D,D|D,C| (мой вар.)

Сначала мне эти треки (смена с Ж на М) напомнили случаи из студийной работы. Приводят школьников, поют даже совсем не поющие (по приказу) - темп не держат, тональность не ловят, текст не знают 😢 ... Хотя, вроде же был образец! Но... к этим примерам я наиграл аккорды - там есть логика! 😊
22:51
Исходная. Фрагм.
👍 1
22:51
SV. Var. 100%. Style: Female vocals, opera singer
🤔 3 👍 2
22:52
SV. Var. 50%. Style: Jazz vocalist, female vocals, scat
👍 4
22:52
SV. Var. 100%. Style: Male vocals, tender singer (+ акк.)
🤔 2
22:52
SV. Var. 100%. Style: Male vocals, tender singer (+ акк.)
🤔 2
22:53
Еще один пример, где вокал почти весь "мимо нот и ритма" (правда, именно так спеть трудно 😊). Да, аккомпанемент есть - в Suno я такую нормализацию уже проверял (см. #1 Autotune голоса). Сделал Swap Vocal (a/b - в одном треке) для М и Ж:

М) Var. 100%. Style: Male vocals, hoarse voice, screaming singer.
Ж) Var. 100%. Style: Female vocals, breathy voice, melismatic.
22:54
Исходный трек :-)
22:54
SV, Var. 100%. Style: Male vocals, hoarse voice, screaming singer.
👍 2 🔥 1
22:55
SV, Var. 100%. Style: Female vocals, breathy voice, melismatic.
🤔 2 🔥 1 😁 1
22:56
Выводы:

1. Генерация
мелодии правильная на любую гармонию, если она явная в музыке. Здесь все понятно - в спектре есть элементы, позволяющие определить, как ступени текущего аккорда, так и построить четкую сетку времени (особенно, при наличие Drums). Замена тембра голоса - не RVC, а генерация "с нуля" из вокальных банков Riffusion.

2. Гармонизация. Если только вокал, а музыки нет, то определение сетки Time/Freq. часто затруднено. В жизни далеко не всегда мелодия строится строго по ступеням лада (тогда гармония становится очевидной). К слову, на практике иногда почти вся мелодия пропевается на доминанте, к которой подходят аккорды 6-ти ступеней лада из 7-ми, т.ч. вариантов гармонизации м.б. множество. Итог - разброс в гармонизации и вариации темпа при Swap Vocal только от голоса. В целом гармонизация Riffusion не всегда логична, типична, для выбранного стиля. Конечно, она и у людей бывает любая.
22:56
3. Vocal variation - полезный параметр. Правда, потестить его в полной мере не удалось - быстро заканчивается Studio Time 😢. (На след. день добавилось 6 мин, но этого хватило лишь на 2 генерации)... Да, может в будущем появятся раздельные настройки: Timbre, Rhythm, Pitch (Steps) variation? Например, меняем тембр, но сохраняем в целом ритмику и ступени и т.п.

В начало поста
👍 4
11 July 2025
AH
00:33
Udio: метод лентяя

Udio 1-й раз попробовал год назад, вот заметки: "очень долго и всего 32 сек! (udio-32) и 2:11 в udio-130, ударения хуже Suno и СТРАННЫЕ слова! Но живенько и вокал почище". Генерации показались развязными, особенно в вокале, а я все-таки приверженец* чего-то более приглаженного. В итоге 90% моих генераций в Suno.

* музыкой сам начал заниматься в 1973 (ДМШ - не в счет) - времена, когда музыканты интенсивно осваивали ЭМИ, внедрялась многоканальная запись, композиторы искали новые тембры, звукорежиссеры склонялись к чистому/ студийному звуку. Чуть позже я увлекся муз. электроникой, + лирика мне ближе, поэтому ориентиры - Manfred Mann, Emerson Lake & Palmer, Yes. Т.ч. в итоге мне по звуку Wings интереснее, чем The Beatles, Pat Metheny - чем Jimi Hendrix.

Борис давно подбивал на Udio, даже как-то платный тариф организовал, но... Вот пару недель назад я сделал свою песню "Идеальный день"** до конца (на Free), но по-своему.

** оригинал - 21 г. после вебинара Lee с тем же названием.
👍 4 🔥 1
00:33
Style: Jazz blues, R&B, Deep soul. Для этой песни такая задорная манера от Udio показалась подходящей 😊.

Генерил частями, Verse + Chorus, Bridge... Extension (До и После) и т.д. - всего 22 трека (фрагмента). Затем собрал все в Reaper, это напомнило студийную работу - запись нескольких дублей и сборка финального трека из самых удачных.

В общем, не смог заставить себя возиться в самом Udio - лень, каюсь 😊. Пользоваться привычным оказалось проще и быстрее - тут намного больше свободы - где врезать проигрыш, какой вариант саксофона или органа и т.п. - пару кликов мышки + прослушать, проигрывая по петле, чуть подправить. Т.ч. если пользуетесь нормальной DAW (где работать с треками и фэйдами легко) - очень рекомендую.
👍 4
00:34
Всего в треке 11 фрагментов (Chorus вставлен трижды). Места склеек: 0:14, 0:39, 1:03, 1:15, 1:27, 1:40, 2:04, 2:15, 2:31. У меня песня заканчивалась fade'ом (видно на картинке), но Борис, послушав, решил дописать явную коду в Udio. Это итоговый результат.

В начало поста
👍 4 1
13 July 2025
AH
00:04
M.Shulman и S.Watkinson

Была? Будет? Происходит сейчас!

Ну что, ИИ революция в муз-индустрии свершается, на мой взгляд, прямо сейчас.

2 года назад музыканты говорили: "ИИ?.. Никогда!". И действительно, качество звука было невысоко, местами другие ляпы... Год назад они погрустнели, так как:

а) уже не все смогли отличить ИИ генерацию от живого.
б) была обида от крушения мечт - "я же полжизни потратил, чтобы … !"

Понятно - ИИ теперь за секунды делает то, на что человеку (точнее, команде) нужны часы (+ до этого годы обучения). Причем, музыкальный результат ИИ лучше по многим параметрам, чем у среднего проф. автора/ группы. Кто-то скажет: "Но ИИ не создаст шедевр, т.к. не чувствует, не переживает"...

Фокус в том, что ему и не нужно (!) - чувства, переживания на стороне слушателя. Все просто, музыка - ключ к воспоминаниям, образам. Можно заплакать и от дорогой сердцу мелодии в исполнении дверного звонка... ИИ уже в хит-парадах, а что-то цепляет не меньше живого. ОК, проверим лет ч/з 15-20 😊.
👍 6 🔥 5
00:07
В начале 24 г. получил письмо из Швеции от Била Брайента (PowerFX, Soundation, Amped Studio) - "Алекс, что нового стоит добавить в DAW, может что-то с ИИ?"...

Да, уже несколько лет, как приставка ИИ привлекает в рекламе внимание (как когда-то нано). Я в то время знакомился с нейронными голосовыми моделями, пробовал заставить петь TTS движок, поэтому ответил:

Не каждый споёт так, чтобы показывать другим. Любой может научиться, но это время и усилия. А мы очень близки к тому, чтобы каждый мог "исполнить" песню своим голосом. Кстати, многие композиторы не поют, а некоторые огорчены исполнением проф. певца... Чтобы появился такой сервис (не нашел ни одного), нужно получить доступ к управлению голосовым движком. В данном случае большая часть задачи уже решена гигантами, за вами лишь небольшая часть - объединить все вместе правильным образом.

ИИ проникал в проф. сферу понемногу - то плагин Split Voc/ Instr., то реверберации, то мастеринга. Теперь список функций намного шире:

Компрессия, EQ, реверберация на основе гармоник.
Имитация магнитной ленты, гитарного трека.
Генерация Drums, бэк-вокала, Loops, Chord прогрессий, midi-мелодий.
Подбор сэмплов к проекту.
Автодополнение midi-файлов.
Изменение сэмпла и мастеринг по образцу.
Восстановление, очистка звука.
Сведение.

Как бы проф. не использовал ИИ, итоговый трек он делает в DAW. Т.ч. по-хорошему, всё - от задания промпта, до редактирования, включая и специфическое (что наперегонки* стали добавлять лидеры), ему удобнее было бы делать "не выходя" из DAW. Намного проще ИИ встроить в DAW, чем развить муз. ИИ сервис до полноценной DAW.

* 25 лет назад народ бодался: Cubase, Sonar? Нет, ProTools! Теперь бренды другие (Udio, Suno, Sonauto ... ) и обновление функционала не раз в год, а каждые 3 мес.

25.06 Udio добавил визуальное редактирование генераций,
а 26.06 Suno объявила о приобретении WavTool (браузерная DAW).

Майки Шульман / Suno:
"...многие из первых последователей Suno - это проф. авторы песен и продюсеры, которые видят огромную ценность интеграции ИИ в свой творческий процесс".


Сэм Уоткинсон / WavTool:
"Как только мы поняли... насколько команда Suno соответствует нашему видению ИИ в процессе создания музыки, мы осознали, что объединение сил - это правильный шаг".


Для любителей сервисы становятся все сложнее, а включение генерации ИИ в DAW окончательно сделает ИИ инструментом профессионалов.

😊 Я бы добавил еще голосовое управление (а может уже сделано?). Сидит вот продюсер (П) в кресле перед большим экраном и беседует с ИИ:

П:"Слушай, вроде нормально, но давай больше секси, как у Мородера ... Лав ту лав (пытается напеть), вроде Саммер пела ..."

ИИ:"Как у Giorgio Moroder в "Love to Love You Baby"? (включает фрагмент)".

П:
"Да, да ... точно! Только звучки посовременнее и впрямую мелодию не копируй"

В начало поста
👍 10 2
14 July 2025
AH
00:10
MusicHero и Suno API*

* API - правила взаимодействия с системой извне с помощью команд.


Иногда смотрю, что нового, типа Suno/ Udio, появилось. Наткнулся на MusicHero - интересно, как звучит!? Залогинился, сгенерил "Кино" (мой тестовый текст) - звук, вроде, как у Suno v4. Послал Борису, он говорит - "да, похоже". ОК, иду в Suno (v4), генерю с тем же Style: Funk traditional 1980s, male vocals, emotional singer, distortion guitar solo.

Вау, треки-близнецы! Cмотрю MusicHero дальше:

▪ хороший звук, не требует мастера АЧХ
▪ чистый русский
▪ правильные мелодии, гармонии
▪ на free нет скачки и НЕ приват
▪ похоже, 4 мин. максимум
▪ если логиниться, треки хранятся 7 дн.

Есть Ru раздел! Без login, песни в общем списке (похоже одна из 2-х сгенерир.). Там всего 20х50 = 1000 треков. Новый добавлен - последний из списка удален. Видно народ генерит ~1000 в день, т.ч. через 2 дня трека уже нет. После 4-х генераций (8 треков) сбросил из Ru на обычный, показал капчу, а затем: "Услуга временно ограничена..."
👍 4
00:11
"Кино", MusicHero. a/b фрагм.
00:11
"Кино", Suno v4. a/b фрагм.
00:13
Видно же, что движок один и тот же!? (Да, не знаю, почему на Free акк. Suno дал сгенерить на v4. - повезло)... Смотрю дальше, есть ссылка на Suno (API)! И хотя MusicHero называют у себя версии Fusion v4, 4.5., они - просто пере-продавец!

В общем, если хочется немного бесплатного Suno v4, с простым интерфейсом, то MusicHero - правильный выбор. Правда, записывать треки придётся "с экрана" (anyrec - в помощь*).

* у меня получалось с -6dB, т.ч. лучше потом поджать в Audacity или BandLab, да и паузы в нач./ конце подрезать.

Но самое интересное, на мой взгляд, другое. С Suno API генерацию можно сделать на любом сайте. Причем, и интерфейс может быть другой (и MusicHero, и GPTunnel, кстати, выдают не весь функционал). Можно и в промпты вмешиваться - как бы "задавать стилистику" генераций "поверх" той, что вводит пользователь, если такая опция нужна... Пофантазируем 😊 :

✔ Сайт/ интернет-радио с музыкой, пусть, Heavy Metal.
▪ каждый час звучит новая композиция в этом стиле на текст, присланный слушателем (конечно, с ИИ проверкой на корректность).
▪ на один текст генерится 10 композиций, а слушатели/ посетители голосуют за лучший вариант.
▪ слушатели выбирают чью "новую" песню сгенерировать - Metallica, Iron Maiden, Black Sabbath? - можно подготовить соответствующие DS (полные). Конечно, с оговорками, что это просто имитация 😊.

✔ Большой ТЦ.
▪ рекламные тексты превращаем в речитативы под музыку, песни, учитывая специфику конкретных отделов.
▪ берем во внимание день недели, сезон, праздники и т.п.
▪ разные акции: 1000-й посетитель - звучит джингл, у покупателя Д.Р. и скидка - тоже...
▪ кто-то из менеджеров на смартфоне кликает каждый раз, когда трек понравился (или НЕ) - информационная система ТЦ отмечает трек в базе и т.п.

✔ Многостилевая школа танцев ... ✔ Просто сайт "Миллион боссанов"... ✔ Да генерить песню клиенту на Д.Р. (ориентируясь на его данные) и посылать ему на смартфон - типа "Перекресток" / салон красоты / стоматолог его любит 😊

Т.е. все как всегда - купили по одной цене, продали по другой или компенсировали рекламой, еще как-то... Платежи внутри РФ легко настраиваются, с выплатами Suno - надо искать пути. Главное в том, что:
▪ функционал муз. ИИ доступен полностью.
▪ настройка, привязка API - несложная задача.
▪ интерфейс определяет пере-продавец (клиент Suno), как и функционал на своей стороне.

В начало поста
👏 6
15 July 2025
AH
00:04
Riffusion: Гармонизация? Кошмар!

В моем примере* с фортепиано - точно. Сделал Swap - 7 Vocal и 5 Sound. Мелодии генерирует правильно, хотя пьеса не простая, но вот музыку 😢

* в 1999 разрабатывал алгоритмы. Сделал в MIDI "Tale of the Broken Airplane". Примечательно, что:
а) вся партия фо-но сгенерирована.
б) мелодию 1 ч. сочинил, подобрал гармонию. Части 2,3,4 получены морфингом партитуры - ритмика сохранена, а мелодия и гармония изменены, что даёт разный характер.

* в 2004 за одну ночь написал повесть (1 раз в жизни 😊) "Элав с планеты птиц" (ISBN 5-9554-0013-3).

* в 2005 записал вокальную версию (CD"Hot Stuff Dreams", Canada) - текст А.Яковлев (с моей рыбы, Ru), вокал - Е.Силантьева, рояль - Р.Столяр.

На днях из Swap Vocal версий собрал трек:

1 ч. 0:03 Male vocals, dramatic singer. Var 90%. Голос местами агендерный.
2 ч. 1:01 Male vocals, baritone, opera manner. Var 100%.
3 ч. 1:50 Male vocals, tenor, opera manner. Var 100%.
4 ч. 2:38 Female vocals, soprano singer, opera manner. Var 100%.
00:05
"Tale of the Broken Airplane". 1999. General MIDI.
00:05
Исходная."Alove", Ravalex, CD, 2005.
00:06
Swap Vocal.
00:07
Конечно, треки с одним исполнителем (Swap Vocal) звучат гармоничнее, но хотелось показать разные голоса в одной пьесе.

... Текст вокальной композиции "Alove" на основе повести... Вот пересказ композиции (Google translate + ИИ сокращение дважды):

Элав верила, что сможет летать, но другие её разубеждали, утверждая, что летать невозможно. Она чувствовала себя одинокой и слабой, отличной от других, с горящим огнём в глазах. Её пытались остановить, говоря, что это запрещено и она не должна даже мечтать. Она была близка к отчаянию, но потом поняла, что детские мечты могут сбыться, если очень постараться. Мы созданы, чтобы летать, но забыли как. Нужно расправить крылья, поймать ветер и высвободить силу, которая всегда внутри. Необходимо отпустить страх, найти своё истинное я и пригласить в мир любовь и гармонию. Весь мир теперь с тобой, так что просто подпрыгни и лети!


А что же с гармонией в Swap Sound? Перепробовал разные настройки, хотел получить Symphonic Orchestra. Везде исх. гармония была нарушена, местами просто бред... Видимо, в отличие от Swap Vocal, система не ориентируется на исходный спектр (музыка + вокал), а пытается подобрать аккорды к мелодии. В результате - случайные смены "вне тональности/ лада".

Да, гармония может быть любой, бывают и сопоставления, но не на каждую же 1/4 или такт! В теории музыки есть несколько понятий, касающихся смены тональности:

а) модуляция (подготовленная) - смена с помощью 1-го или более связующих аккордов.
б) отклонение (временная модуляция) - чаще в родственную.
в) сопоставление - резкая смена без подготовки.

Сопоставления часто используются в кино (и комп. играх), чтобы эмоционально усилить видео-ряд... Синхронно в кадре и музыке: "выглянуло солнце из-за тучи" - 😊, "герой читает письмо с трагическим известием" - 😞... Буржуи все систематизируют, вот и известные классические пары привели в порядок (шпаргалка от Голливуда):

C-D - Герой/ Позитив
C-Gb - Космос
C-Ab - Фантастический
C-Em - Грусть/ Потеря
C-Fm - Романтика/ Восток
Cm-F - Чудо/ Неизведанное
Cm-D - Тайна/ Чёрный юмор
Cm-B - Драма
Cm-Gbm - Опасность/ Антигерой
Cm-Abm - Зло/ Антигерой

Т.е. сами резкие переходы могут быть, но секвенция никогда (почти) не состоит только из них - применил сопоставление, ну так останься в новой тональности хотя бы до конца фразы! Ан нет😢... Вот пример Swap Sound, 2 и 3 части:
👍 2 1
00:08
"Alove". Swap Sound. Var 100%. Symphonic orchestra.
00:10
Да, можно сказать, это не компьютерная забивка, где все просто, что тут все живое.

Но, во-первых, у меня ни в одной из 4-х частей нет смены тональности, там B minor, D minor, C# major и D major.

Во-вторых, генерация новой мелодии к гармонии - все-таки более сложная задача, чем генерация аккомпанемента. Swap Vocal выполняется хорошо, а Swap Sound - криво, не по тем аккордам... И это не Symphonic orchestra 😢

В общем, написал в Riffusion по этой проблеме. Ответят - не знаю, на вопрос о Personal Vocal Model ответа не было.

В начало поста
16 July 2025
AH
00:06
Прозу в стих ... В отпуск! *

* В Адлере уже 2 недели настоящее лето... я собрался в отпуск - Красноярск, Новосибирск ... поэтому и старался в последние дни "отписаться".

Давно интересовало, как прозу с ИИ превратить в стихи, или их подправить. Притом, что Suno и другие любой текст укладывают в ритм/ мелодию, текст сильно влияет на музыку - иногда система сама задает [Spoken word] для прозы. Но хочется больше гарантий, т.ч. правильный размер и рифма желательны.

На днях знакомая прислала ссылку на прогноз на июль 2025 от lee. Решил на этом оптимистичном тексте (полагаю, господин lee не будет против 😊) и попробовать - от экономистов / политологов позитива мало ☹. Сначала я этот пост сократил...

На запрос "convert prose into verse" мало что находится. Но тут на GPTunnel рядом с Suno увидел Mureka (новый муз. ИИ). На Free у него всё крайне ограничено (2 кредита = одна генерация), т.ч. тестить его пока не получится. Хотя там есть весьма интересная опция - Personalized Model ($99)!
👍 1 🔥 1
00:07
Да, у Mureka для текста есть полезная функция - Lyric optimize. В режиме Advanced вставляем прозу и жмем кнопку (это бесплатно). Итог - стих, где с размером почти хорошо, а с рифмой и смыслом не очень (Ru). Можно и 2-й раз прогнать. Причем, вставляет теги (Verse, Chorus и т.д.) и даже припев повторяет!

Еще одно полезное место - deepai. Вставил текст без тегов (сокращенный).

1. Сначала сервис выдал на английском - он в 1-м примере. на DS ("Sting" от Sunauto). Похоже и стих не плох*.

* "... действительно напоминает Стинга, передаёт вокальный тембр и особый стиль... Английский чёткий и ритмичный, рифма хорошая, местами искусная" // комм. McKinley Hibbits

2. Я вбил: "Please convert this prose into Russian poetry" - Выдал на русском, но сильно сократил.

3. Тогда я подправил промпт: "Please convert this prose into Russian poetry, don't losing presented ideas. Big cuts are not required". Получилось вполне прилично, хотя видно, что железяка.

4. Последняя моя команда, чтобы расставил теги: "Same thing, just insert tags for the song, like verse, chorus, etc. The chorus can be repeated." - все сделал!

Результаты не привожу, полагая, что каждому полезнее тестировать свой материал. В итоге "стих" ни Mureka, ни deepai на русском я использовать не стал - исходная (сокращенная) проза, все-таки интереснее (треки 2,3). Может все уже давно так делают тексты, не знаю, я первый раз.

Зато еще раз протестил свои DS - речевой и вокальный. Причем вокальный был собран из фраз от разных песен (En), без аккордов и Hi-Hat. T.е. не совсем то, что в посте - темп и тональность из него Suno вряд ли может извлечь.
👍 2
00:08
DS: 99STF - "Sting", NoStyle
00:08
мой речевой DS. Style: Reggae, acoustic, happy, positive
00:09
мой вокальный DS. Style: Latin jazz, middle tempo, acoustic, happy, positive
00:11
Ну что, завтра в отпуск! Планирую вернуться к каналу в конце августа ... Всем хорошего настроения и самочувствия, пожелание отдохнуть, где и как запланировали ✈ 🛳 🚗 ... Ну, и успехов во всём, что приносит радость 😊😊😊
----------------------------

P.S.
Вообще-то способ "из прозы в стих" с помощью таких шагов, кажется рабочим для тех, кому нужны тексты на англ. Более надежным, чем генерация от промпта, если важно не отходить далеко от смысла исходного текста.

P.P.S.
Когда уже собрался отправлять пост наткнулся на удивительный ресурс - songly. gift, правда, тестил минимум:

а) здесь вводишь до 100 знаков (о чём) - генерит с хорошей рифмой.

б) а вот здесь - то, что раньше искал! Вводишь прозу - выдает с хорошей рифмой, причем, можно выбрать стиль (Пушкин, Лермонтов, рэп ...).

Там и генерации музыки/ песни есть (Suno?). Похоже, наш разработчик, с Урала. Респект!

Скормил этот текст (как бы про одного старинного знакомого) и даже сделал генерацию:

Он на все говорит "офигенно". Поспал - "офигенно"! Покушал - "офигенно"! Погулял - "офигенно"! Сходил на горшок - "офигенно"! И у него все получается. Он какой-то счастливчик. Может надо брать с него пример? Может действительно надо всему радоваться, даже если вышло не очень хорошо?


В начало поста
👍 5
00:13
Lyrics - songly-gift. Style: Reggae, Male vocals
🔥 3
AH
13:18
Проза в стих с Songly Gift
(не удержался 😊 )...

Сгенерил 3 текста для "Офигенно", для генерации самой песни заслал 120 р. ОК, а с задачей посложнее?*

* Приятель так тренирует память: записывает фразы из к/ф, потом читая, вспоминает сценки.

ОК, я как-то записал фразы из к/ф "Покровские ворота" - море крылатых 😂. Память еще не проверял, а текст остался:

Это был последний укол. Я привык к вашим рукам. У нее напряженная духовная жизнь.Так много нервных больных. Поднатужтесь, вы же талантливый человек. Не надо бояться жить. Ой, у вас уже губки дрожат. Ночи чреваты сюрпризами. Наши играют французскую жизнь. Искусство в большом долгу. В шорах своей предубеждённости. Перестали быть супругами, но остались родными людьми. Высокие, высокие отношения! Нормальные для духовных людей. В суе, прошу, не поминать. Такой образованный человек. Не понимаете элементарных вещей. Веду иллюзорную жизнь. Смешно рассчитывать на взаимность? Вы весь из достоинств! Будьте творцом своей биографии! Как человек, он очень хороший.
13:19
В общем с единым, сквозным смыслом тут сложно - какой текст сгенерит Songly Gift? Сделал 4 варианта - "Клеопатра", "Мария Сингер", "Пушкин" и "Генератор рэпа".

Причем, когда писал задание, еще указывал "атмосферу", вроде: "Преобразуй эту прозу в текст ироничной песни в стиле джаза 1930-х годов".

Система генерит текст прямо с расширенной структурой, т.е. не просто [Verse], а [Verse 1] [Melodic] [Sarcastic] и т.п.

После генерации песни (2 вар.) осталось 68 кредитов., а после еще 4-х текстов - 56. Вообще-то есть история действий с распечаткой расходов.

Песни для этих 4-х текстов решил сделать в Suno - так проще. Вот результаты. Мне кажется, Songly Gift очень хорошо справился с непростой задачей. Еще раз респект разработчикам 👍. Привожу по одному варианту. А вот заданные мной в Suno стили не отработаны в полной мере - возможно из-за доп. команд в Lyrics от Songly Gift 😞.
👍 3
13:20
Клеопатра. Style: Male vocals, reggae, 1980s, ironical, trumpet solo
13:21
Мария Сингер. Style: Male vocals, emotional singer, jazz, comedy, ironic
13:22
Пушкин. Style: Male vocals, Russian romance, triplet rhythmic, small orchestra, ironic
13:22
Генератор рэпа. Style: Male vocals, rap, hip-hop, soul, ironic
🔥 4
22 August 2025
AH
21:13
ИИ - хороший* композитор! Как украсть его работу?

* опять повод вспомнить фразу шефа: "Лёша, если у вас не воруют то, что вы делаете, вы делаете фуфло" 😊

... Результат Suno нравился с самого начала. Правда тогда я не осмеливался говорить, что это лучше среднестатистических песен и любителей, и профессионалов. 10 версий одной песни - и все хороши, как в мелодии, так и в аранжировке!

Мелодист "от природы" генерит мелодии легко и много, но таких мало. С аранжировкой чуть проще - тут больше рутины, можно делать по образцу. Конечно, профессионал может мелодию конструировать, отслеживая, что непохожа на известные, но... все-таки желательно вдохновение, озарение.

Как ни странно, большинство проф. музыкантов не умеют сочинять - знают почти все о музыке, но играют только с нот. Уроки импровизации (первый шаг к сочинительству) крайне редки в программах исполнителей в ДМШ, колледже, консерватории.

Любители обычно "скатываются" к знакомому - у одного клиента более 50 песен напоминали "Шаланды полные кефали..." 😢
3 👍 3
21:13
Год назад сделал много полных DS из песен, как зарубежных, так и наших групп... Вот беру A-Studio (вроде известная команда) - из сотни треков всего 2-3 запоминающихся, а ведь это делали человеки/ профессионалы...

Несколько ИИ песен на мои тексты спели в живую... Марина А. стала отказываться от человеческих аранжировок в пользу ИИ - получает текст, минус от заказчика, но генерит в Suno свой вариант, разделяет вок./инструм., записывает голос...

В студиях стали перезаписывать партии ИИ образца. Сначала чтобы улучшить качество - экономия времени и для клиента дешевле. Т.е. уровень сочинения - мелодия и аранжировка их устраивала. А теперь это делают, чтобы "отмыть авторские права" и присвоить труд ИИ 😊. Есть хорошая статья о тенденциях и подходах. Уже упоминал, что параллельно с развитием муз. ИИ стали появляться сервисы распознавания ИИ треков (ИИ детекторы).

Ну... я тоже немного поддался тренду. Взял песню Бориса "Сияй, как звезда" (исходная), которую давно "мучаю". Это не мой стиль, но она кажется очень позитивной. Минус от Udio после разделения становится еще хуже, поэтому и затеял перезапись.

1. Разделил на треки.
2. Бас перевел в MIDI, подправил и записал на KORG-Triton.
3. Сыграл на акустической гитаре.
4. Сыграл фортепианную партию.
5. Отфильтровал Trumpet.
6. Подобрал Drum Loop / Fills.
7. Спел. Хорошо поющий Сергей сказал: "слишком театрально", перепел - хорошо поющая Ольга сказала: "слишком ровно"... Сделал средний вариант.
8. Собрал все вместе и сделал простое видео*.

* конечно, это детский лепет, в сравнении с тем, что народ делает с Veo 3. Однако, одно дело прикалываться (типа бабушка матерится), другое дело собрать качественный клип. Нужен сценарий, раскадровка... т.е. опыт и знания. Хотя, клипы для нашего МУЗ-ТВ будут стоить дешевле - не так уже нужна студия - свет, камеры, хрома-кей, специалист по VFX...
4
21:14
🔥 4 1
21:15
Комментарий Бориса по ИИ детектированию.

... Да, это сейчас проблема ☹. Насчет переписывания музыки, все верно. Например, переписать трек электронной музыки в FL studio - одна знакомая так делает.

Но дальше будет сложнее. Я уверен, что все (Suno, Riffusion, Udio) введут в ближайшее время "отпечатки" песен в своих базах.

Как Shazam или Youtube Контент. Поэтому будет примерно так: заливаешь трек в Youtube, а он говорит - "Этот трек был сделан в Суно 22 авг. 2025 года, пользователем Pupkin. Бесплатная версия. Пожалуйста подтвердите права на этот трек".

Думаю будет так. И тут вперед выйдут китайские оффлайн модели, где можно будет генерировать музыку локально на компьютере 🔥.

В начало поста ⬆.
👍 7 👏 2 🔥 1
27 August 2025
AH
00:01
Suno Cover - это точно "Voilà"!

Как я мог это (функцию кавер) пропустить? Давно мечтал о ИИ сервисе, кот. черновик превращает в качественный финальный трек - делает ресинтез/ реставрацию. Это 🔥🔥🔥.

Недавно пытался решать вопрос с Riffusion (Swap Sound) - система хронически не соблюдает исходную гармонию (L1). Я попробовал на "Alove" в v3.5 фортепианный аккомпанемент заменить на симфонический оркестр и, вспоминая Riffusion, взял только 1-ю часть - опять не то. ОК, надо делать все правильно - дать Suno непростую, но явную гармонию.

Сочинил мелодию, текст, собрал простой трек (GM) - фоно, бас, ударные, LeadSynth + голос (записал на диктофон в телефоне). Сделал 2 DS с вокалом и без. Как бы короткая песня: Intro, Verse, Chorus, Instrumental Bridge, Chorus, Chorus. Длительность 2:12.

Verse:

Am, Ab5+, Am7/G, Gb5-
Dm, Db5+, F/C, Bm5-7
C, Em/B, Gm6/Bb, A7
Dm, Db5+, F/C, Bm5-7

Chorus:
C, G, Am, G
C, G, Am, G

Начал тестировать с v3.5, а тут Борис настроил мне платный, т.ч. смог проверить и на v4, v4.5 😊
00:02
Последовательность с хроматическим басом - мой любимый подход для проверки систем генерации. Все версии Suno, при таком исходном материале (как в моём DS, когда аккомпанемент простой и гармония легко считывается), справляются с задачей. В 80% она сохраняется, особенно, если стиль соответствующий.

Фрагменты треков: сначала DS, потом примеры из v4.5, затем v3.5 (v4 не привожу, т.к. они по качеству где-то между). Вот использованные стили:

1. Heavy metal, male vocals, rock, guitar power chords, hoarse singer, distortion guitar arpeggios

2. Pop ballad, male vocals, sixteenth note pulsation, overdriven guitar solo, long-drawn-out singing, tenor, opera manner

3. Bossa nova, Latin jazz, female vocals, acоustic guitar solo, percussions, emotional singer

4. Big Band, female vocals, saxophone solo, expressive jazz singer, scat

5. -- (NoStyle)
🔥 2 👍 1
00:06
Генерация из DS без голоса.

Как и в прежних опытах с Audio Input, очень хотелось сгенерить минусовку ... Выбирал опцию Instrumental, в поле Exclude styles прописывал "solo", т.е. промпт выглядел как [Pop ballad, Male vocals, -solo], но в генерации, где хотелось иметь только аккомпанемент (Verse, Chorus), все-таки появлялись элементы соло. Может есть спец. команды или надо как-то задавать структуру - не знаю.

Так что, если пользоваться Cover для создание минуса, то или split (vocalRemover), или комбинировать из инструментала, полученного на основе DS без голоса - качество в v4.5 достаточно хорошее (+ скачка в wav).

Выводы:

1.
Функция Cover в Suno - хороший способ получить готовый трек из черновика, как для любителя, так и профессионала (не все композиторы поют, да еще не своим гендером 😊).

2.
Правильный выбор стиля - принципиальный момент, если важно сохранить гармонию. Хроматический / "walking" бас, к слову, вовсе не характерен для Heavy metal. Выбрал такой стиль, чтобы усложнить задачу для системы.

3.
В v4.5 есть доп. параметры генерации: Weirdness, Style influence, Audio influence - Случайность, влияние Стиля, влияние Исходника (DS). Результат во многом зависит от выбранных значений. В v4, v3.5 они не доступны и, скорее всего, средние.

4.
У v4.5 меньше косяков, когда система меняет текст, мелодию, добавляет странные слова (на чешско-польском 😊) - видимо, "ошмётки" из материала, на кот. тренировали. Хотя, может и темп изменить, все от параметров п.3. Да, не стоит на 100% доверять Suno в транскрибации - лучше ввести текст/ структуру в Lyrics.

В моих планах:

▪ Отладить с Cover реставрацию/ ресинтез старых записей - что-то уже попробовал 😊 ... в знакомом коллективе поют джаз 1930-70-х - делают split, меняют тональность, форму ... в итоге не фонограмма, а ужас, а петь надо в зале 😢.

▪ Обновить некоторые свои треки, особенно те, где минусы бюджетные, сделанные на скорую руку.

▪ Сделать нормальную песню (а не прикол, как в этом DS), точно по данной схеме. Только потом (наверное) еще в голосе тембр на свой поменять с RVC.

▪ Попробовать найти способ делать в Cover минусовку.

В начало поста ⬆
🔥 4 👍 2 1
30 August 2025
AH
00:03
Suno, Cover: минус из MIDI

Сделать минус - значит получить трек в котором: нужный стиль, темп, тональность, гармония, форма (структура), инструментальные соло в Intro, Bridge, Outro, а часто и обыгрыши вокала в купл./ припеве.

Продолжил тему - собрал простой MIDI минус в OnyxArranger 2.1* - черновик, чтобы "раскрасить", улучшить с Cover v4.5. Аккорды в купл./ припеве, как в "Stumblin' in" (Chris Norman, Suzi Quatro) - море песен с такой гармонией 😊. Вот форма:

Intro - 8 Bars (Solo) [Em, D, G, G] x 2
Verse 1 - 16 Bars [Am, D, G, Em] x 4
Chorus 1 - 16 Bars [Am, D, G, Em] x 4
Bridge - 8 Bars (Solo)
Verse 2 - как куплет 1
Chorus 2 - как припев 1 ( + элементы Solo)
Outro - 8 Bars (Solo) + замедление

Intro, Bridge, Outro
- идентичные.

Записал с Yamaha MU100R (GМ) в mp3 - получился DS. 120 BPM, G major, стиль вроде British Beat.

* разрабатывал его давно, но все еще пользуюсь 😊
👍 1 🔥 1
00:04
В v4.5 сначала сделал 7 генераций (Instrumental) - British rock, Bossa nova (2), EDM, Funk 1980s, Hip-Hop, Reggae. Затем для некоторых треков сделал повторный Cover с вокалом. Сочинил* 1-й куплет/ припев, а 2-й сгенерил в Songly Gift (хотя пришлось править). Т.е. просто вставил текст в Lyrics - система сгенерировала мелодию под свой же инструментальный трек. С ошибками в форме (например, вокал на Bridge и т.п.) - только там, где заметно меняла темп. Примеры ниже, а оценки генераций - в таблице.

Для British rock, overdriven guitar, -solo (1a) - вся песня. Для остальных стилей - фрагменты**:

0:00 - Bossa nova, nylon guitar, percussions, -solo (3a)
0:48 - EDM, lead synth, pads, -solo (4a)
1:38 - Funk 1980s, saxophone, -solo (5a)
2:26 - Hip-Hop, rap, trumpet, -solo (6a)
3:23 - Reggae, distortion guitar, -solo (7b)

* надо назвать её "Не пчела" 😊
** во фрагментах Intro + половина Verse 1 + половина Chorus 1.
00:07
Выводы:

Всего 7 генераций (14 треков) - см. таблицу.

1. Тональность везде G мажор, как и было.

2. Аккорды соблюдены в 86% (в таблице по 5-ти баллам). Легкие расширения в Bossa nova и Funk обусловлены стилем.

3. Темп близкий к исходному (120 BPM) в 86% - система старалась 😊. Явные отклонения в Hip-Hop, Reggae. Действительно, 120 для традиционных Funk, Hip-Hop, Reggae - много. Для Bossa nova лучше было бы 140-160, а для EDM - 130+. Замедления в конце (ritardando) не было ни в одной генерации - видимо в выбранных системой моделях оно не присутствует.

4. Solo
в нужных местах в Intro, Bridge, Outro, Chorus отработаны на 100%, но в 79% случаев Solo появилось в Verse, Chorus, где оно лишнее (т.е. в DS его не было).

5. Форма
(структура песни) и продолжительность соблюдены в 43%. Годные минусы также 43%. Но и из почти всех других можно собрать нормальные минусы, если резать/ клеить.

В целом эксперимент представляется весьма успешным, учитывая, что % годных был бы выше, если бы я использовал только стили, соответствующие параметрам DS.

Самым проблемным местом является появление лишнего Solo в Verse 1(2), Chorus 1(2) - обыгрыши были прописаны в DS только в Chorus 2. К слову, в Exclude styles я вписывал "Solo" (т.е. запрет).

Возможно удастся это "полечить" (в следующий раз попробую), если прописать в Verse и Chorus не громко короткие нотки Solo на 2-ю и 4-ю четверти (чтобы не сильно мешать голосу). Может тогда система не будет "лезть" в Verse и Chorus, думая, что там уже есть соло?

Также стоит сделать разные Solo в Intro, Bridge, Outro и разные аккорды в Verse и Chorus - просто для более удобного контроля формы на слух.
--------------

P.S. 10 лет назад в Новосибирске бюджетный минус (все в компе) в моей студии стоил от 6 т.р., в других, с привлечением живых музыкантов - от 15 т.р., в Москве - от 60 т.р. Сейчас, наверное, все надо умножить на 3.

Месяц Suno v4.5. мне обошелся в 1017 руб ... думаю в студии это "отбивается" за 30 мин. А ведь 2500 кредитов, это 500 треков. И трек от Suno явно интересней по музыке, да порой и по звуку, чем бюджетный в студии. Да и клиенту можно предложить несколько вариантов за те же деньги ... Фантастика, однако. Правда некоторые смогут сделать минус и без обращения в студию 😊.

В начало поста ⬆
🔥 14 1
4 September 2025
AH
00:04
Suno, Cover: реставрация?

Продолжая L1, L2, решил почистить 2 трека нашей студ. группы (с танцев в ДК "Энергия", Новосибирск, 1980 г.). Запись на магнитофон "Комета-212", затем "наложение" вторых клавиш при перезаписи на др. Комету 😢. В блюзе "После работы" ("ATW") дописывал убитое пианино, а в инструм. "Airplane" - второй синтезатор* .

* в 1978-м я собрал а-ля "Minimoog", думаю, за Уралом такой самопал был первым.

Сделал много генераций (v4.5) - 20 для "ATW" и 12 для "Airplane", результат неважный, если речь о восстановлении качества, без изменения партий. Игрался с параметрами (Weirdness, Style influence, Audio influence - как 20,60,90 и т.п.). Побаловался с "ATW" - из исходного текста сгенерил в Songly Gift новый (и поправил), а также на английском 😊

Примеры: исходник (DS), затем генерации (по 2 мин.) в порядке отхода от оригинала.

"ATW"
0:00 - DS
2:00 - 202090
4:00 - 206090
6:00 - 206090 new Ru
8:00 - 206090 En

"Airplane"
0:00 - DS
2:00 - 206080
4:00 - 205090
6:00 - 209050
8:00 - 209050
👍 3
00:06
Выводы:

1.
Пропадает перегруз, чище ударные, бас, гитарные соло, но ... на моих примерах реставрация все-таки не получилась, даже когда Audio influence 90 и Style соответствующий*. Тут напрашивается аналогия с картиной - если какие-то элементы неразборчивы, то только опытный реставратор, понимающий контекст, может дорисовать отсутствующий элемент...
* Возможно я не подобрал нужные значения, может это вообще не тот способ - временнОе окно анализа системы должно быть шире, нужны несколько проходов - т.е. пройти вперед на 16 тактов и ... вернуться с фразой: "Ааа, так в 1-м такте была гитара, рисунок тот же, просто шумом перекрыта..." и т.д.


2. Этот эксперимент показал, что система хорошо различает Bass, Drums (отличаются по спектру, регистру - "графическому образу" в спектрограмме) и Solo (по уровню). А вот второстепенные партии, особенно те, что пересекаются по тону и времени с более яркими, распознаются хуже. Система путает инструменты (гитара/ рояль), может начать фразу саксофоном, а продолжить Distortion guitar... В итоге что-то "восстанавливается" (барабанщику, басисту и солирующим везет 😊), даже при заметной смене Style, а что-то заменяется тем, чего в оригинале не было. Т.ч. композитор может "спать спокойно", в том смысле, что основная мелодия сохраняется.

3. Голос
, похоже, заменяется на близкий по тембру/ регистру... Так что пока я делаю вывод, что надежнее делать каверы и, если хочется оставаться ближе к оригиналу - искать баланс между заданным Style и значением параметров. К слову, с подачи Бориса попробовал Creative boost (расширитель промпта). Вбил 3 слова: "Парень ненавидит школу", получил:
Задорный поп-панк-трек начинается с хрустящих гитар и драйвовых барабанов, дополненных энергичным басом. В куплетах звучат быстрые риффы с глушением, а припев взрывается гимновыми аккордами и ганг-вокалом. Короткий бридж добавляет синкопированные барабанные партии и динамичное взаимодействие гитар.


Хотя, надо проверять, что он там наплел. Да, и на English мне кажется лучше.

4. С "реставраций" результаты "на хорошо" у меня получаются с джазом (Big/ Small band). Там, кстати, не так критичны требования аутентичности - одну и ту же пьесу каждый оркестр играет по-своему. Беру среднего качества трек, собираю нужную форму, меняю тональность, темп (как нужно исполнителю) и делаю кавер, максимально близко к исходнику. На выходе - более чистый и обновленный. Беда в том, что (как и в L2) Solo часто появляется там, где надо петь. Ну, ... тут Split Wind/ Other и пересборка.

P.S.
▪ За 4 дня истратил 2300 кредитов, обновил несколько своих композиций, настроение 👍.

▪ познакомился с ребятами из heybro ai - у них, помимо прочего, есть генератор текстов песен 😊.

▪ 12 сентября открыл на сайте раздел для каверов, чтобы не перегружать канал.

В начало поста ⬆
👍 11 🔥 4 2
12 September 2025
AH
00:01
Suno, Cover: текущие итоги

Продолжение L1, L2, L3. Снова генерил минус из MIDI- черновика. Собрал DS с формой: Intro, Verse1, Chorus1, Bridge, Verse2, Chorus2, Outro. В Intro, Bridge, Outro разные гармонии и Solo. В купл./прип. Solo прописано короткими нотками на 2-ю и 4-ю доли и разные аккорды.

Сначала сгенерил минусы - нотки в купл./прип. немного помогли - Suno меньше втыкал в них Solo. В 14 треках (7 генераций) в 40% форма и гармония, как в DS.

На этом же DS сгенерил треки с вокалом (текст Songly Gift, чуть правленный). Выбрал удачный, вытащил вокал и собрал с тремя минусами. Назвал "Зачем мне всё.." Все примеры на сайте.

Идти этим путём можно, но 100% гарантии нет. Если баланс Style/ Audio influence в сторону Audio (пусть 50/90), то гармония/ форма соблюдаются лучше, но стиль не так заметен. Если наоборот (90/50) - стиль ярче, но гармония уже другая (%% здесь условные). Благо мелодии обычно сохраняются.

Т.ч. все-таки MIDI-черновик с вокалом кажется более надежным способом создания минуса.
🔥 4
00:02
В разделе на сайте примеры тестирования опции Cover. Для каждой пьесы/ песни - указание авторов, исполнителей, оригинал (DS) + генерации со значениями параметров (типа 208060) и Style. Некоторые стили получены с Creative boost (расширитель) - они существенно подробнее.

Из инструментальной MIDI-пьесы

Каверы из таких DS были наиболее удачными. Здесь видно реальное улучшение тембров, местами и исполнительских приемов.

Д.р. Риты - зарисовка (гитара, бас, фоно, Drums) к дню рождения жены ведущего программиста (~1999), вскоре после создания 1-й вер. StyleEnhancer. Удивительно, но система правильно поставила мой текст "с потолка", точно совпадающий по размеру с мелодией 👍.

Time of Parting Conversation - диалог двух гитар. Я никогда не сыграю на грифе то, что могу на клавишах. Приятно слышать, как пластмассовый звук General MIDI модуля заменяется на что-то достаточно близкое к гитаре.

Let's Jam a Jazz - это демо OnyxArranger2.1 (~2004), в котором всё, кроме основной темы, сгенерировано. Конечно, Suno развил пьесу, но мелодия сохранена.
🔥 1
00:02
Из MIDI-пьесы с вокалом (см. на сайте)

Red Hair Girl.
Эта песня попала на CD (Canada, 2005) в живом исполнении. Но для DS я взял версию Vocaloid (Leon). Давно хотел сделать вариант на русском - вуаля, теперь это так легко. Отдельное спасибо Suno, что сохранил основной риф гитары и баса, да и гармонию 😊.

Идиот
. Эту песню мы с Ириной К., совсем не поющей, но большой любительницей театра (поэтому и делал такую аранжировку), собрали за 2-3 часа. В этот раз (v4.5 Cover) Suno прекрасно справился с задачей - сохранил как гармонию, так и мелодии, что в v3.5 c Audio Input получить не удалось. Здесь и агогика (изменения темпа) присутствует - видимо она допустима в примененных стилях.

Черноморская роза
. Игорь З. - удивительный человек, хорошие тексты ... без муз. образование + слуховой аппарат! Иногда мы делали по 2 песни за день - одну до обеда (5 час.), др. - после (еще 5 час.). Т.е. всё - форма, аранжировка, запись вокала + правка, сборка. И я заранее не знал, что он принесет. Конечно это гонка, конечно в MIDI.

Филиппины. После года в Адлере я отказался от своей мечты лет 5-ть пожить на Филиппинах (если будут средства и здоровье)... Игорь З. с моей подачи развил тему, а я в очередной раз сбил его с шансона 😊.

Splendor
. На тамильском, попала на CD (Canada, 2005) - правильно ли Suno его расшифровал, а потом перепел - не знаю, отправил автору, ответа пока нет. Вокал присылали из Лондона в mp3. Аранжировка в OnyxArranger2.1 + Drum/ Percussion Loops. Очень хотелось освежить этот трек.

Just the Two of Us
. Давно хотел и недавно сделал русский вариант песни Гровера Вашингтона (G.Washington), близкий к версии Энди Сеймура (A. Seymour).
2
00:04
Из студийного трека (см. на сайте)

I Love You from Afar.
Мне ставили задачу мелодию автора-индийца обернуть в стиль русского/ европейского романса под гитару. Думаю, в целом справился. Чуть в джаз отклонился в проигрыше сознательно. Гитару, однако, мы записали неважно. Захотелось "вернуть" мелодию на родину, хотя моя гармония местами сохранилась 😊 / CD (Canada, 2005).

Flying Girl
. 60% тут MIDI генерация, т.ч. хотелось оживить + наконец-то сделать её версию на русском. / CD (Canada, 2005).

Alove
. Здесь у меня ранее никак не получалось заменить живой рояль на симфонический оркестр или хотя бы на его струнную секцию. В этот раз на 100% не вышло, но уже что-то. Да, и "вокалистка Suno" таки спела последнюю ноту на октаву выше, чего от певицы при записи я получить не смог 😊 / CD (Canada, 2005).
👍 3
00:04
Выводы:

1. В целом я очень доволен результатами с Cover в Suno v4.5. Думаю, при использовании своих мелодий/ аранжировок, это еще и самый честный вид генераций. Т.е. претензии типа: "Suno генерит на основе чужой музыки", как бы снимаются. Правда, автор все-равно Suno, т.ч. здесь, скорее, ущемляются права пользователя.

2. Мелодии
, как основная, так и обыгрыши, линия баса, в основном неизменны. Во многом сохраняется и тип тембра, манера вокала, конечно, если Style не требует (или напрямую задано) что-то явно отличное.

3
. С соблюдением исходной гармонии не всегда ОК. С модуляциями тоже проблемы, тут как повезет. Вроде бы баланс Style / Audio influence должен быть определяющим, но на практике, как мне кажется, заданный Style имеет решающее значение.

4
. С формой (структурой) тоже не все гладко - система не всегда следует тому, что в DS - обычно берет материал исходника и лепит что-то своё. Возможно, с типовой песенной формой в DS (К1, К2, Пр1, К3, К4, Пр2 - то, что часто выдает авто-генерация Lyrics), Suno будет делать меньше ошибок.

5. Звук
с опцией Cover часто хуже, чем при обычной генерации - появляются призвуки, шум, фон. Зависит, конечно, от самого DS, выбранных настроек и Style. Самые лучшие результаты получаются из чистой, не перегруженной инструментами фонограммы (даже если это простой MIDI), где все партии, гармония, ритм легко читаются.

----------------

P.S
. 2500 кредитов я потратил за 6 дней, а в оставшиеся 24 дня (от месяца) получаю, как и ранее, по 50 кредитов, но с v4.5! Т.е. еще 24х50=1200. Т.о. всего треков: (2500+1200)/5= 740, а стоимость одного трека 1017р./740=~1,37руб 🔥. При том, что уже за то, что получил, я бы без колебаний отдал месячную пенсию. В общем, круто 😊.

В начало поста ⬆
🔥 12 👍 2 1
16 September 2025
AH
00:03
Suno, Cover: из сырого вокала

Продолжение (L1,L2,L3,L4). Теперь тесты, что v4.5 может генерировать из сырого вокала*

* пора извиниться за свои голосовые, часто не эстетичные примеры ☹ ... Большинство женщин не выходят из дома без наведения красоты, вокалисты обычно не выкладывают сырой вокал... У меня тут нет выхода - так быстрее, чем кого-то просить, согласовывать и, кажется, так легче мотивировать любителей на собственные эксперименты 😎.


Сгенерил в Songly Gift 2 купл., припев, подправил, назвал "Вещий сон".

1
. Сначала пропел простую мелодию в Am, 120bpm, НЕ применял autotune. Сгенерил** несколько треков. В примере 1/2 куп. + припев, сначала DS, затем:

0:32 206080, Bossa nova..
1:06 206080, Synth-pop..
1:41 203090, Country pop..
2:17 101090, Male vocals
2:52 309060, Rock 'n' roll..

**во всех стилях было [Male vocals], полные композиции и Style на сайте.

Тональности получились разные, чаще Cm/Eb, похоже из-за того, что 1-е ноты в DS (Ми) занижены до Eb. Темп и ритмика в целом, как в DS.
👍 2
00:04
2. DrmVc (DS для 1-го примера*) записывал на телефон, специально зажав нос, чтобы снизить разборчивость 😊.

* В 1-м примере Suno поступил, как аранжировщик/ звукореж. в студии. Приходит любитель со своей песней, поёт мимо нот и ритма. Ему говорят: "Ну, .. понятно, что вы хотели спеть ... погуляйте пока, мы тут все поправим".

ОК, если без autotune тональность Suno считывает плохо, я его оттьюнил (DrmVcT) - теперь это точно Am. Сгенерил**, в примере также 1/2 куп. + припев, сначала DS, затем:

0:32
206080, Country pop..
1:07 206080, Rock 'n' roll..

** во всех стилях было [Male vocals], полные композиции и Style в
разделе на сайте.

В 80% треков тональность Am, ритмика и мелодии ближе к оригиналу, чем в примере 1 (DrmVc), Suno даже [Rock 'n' roll] постарался сделать в Am/C 😊.
00:05
3. Хорошо, надо попробовать записать мелодию строго по ступеням аккордов - что тогда будет в каверах? Спел в Am, 70bpm, размер 6/8 (тоже на телефон) + autotune (Drm68VcT). Сгенерил*, в примере также 1/2 куп. + припев, сначала DS, затем:

0:42
206080, Pop ballad..
1:22 206080, Hero’s song..
2:05 203090, Rock 'n' roll

* во всех стилях было [Male vocals], полные композиции и Style в
разделе на сайте.

В 84% треков тональность Am/C, гармония, ритмика и мелодии практически соответствуют тому, что в DS. Темп варьировался в диапазоне 71-91 bpm. Но [Rock 'n' roll] Suno не стал делать в размере 6/8 😊.
00:06
4. Последний тест с сырым вокалом. Пытался заставить Suno декламировать стихи под музыку, а не петь. Записал на телефон куплет + припев в манере как бы чтецов/ авторов стихов на поэтических вечерах - на мой взгляд, у артистов это получается лучше, чем у самих поэтов 😊. В DS (DrmSp2) нет явных ни темпа, ни тональности. Сгенерил*, в примере также 1/2 куп. + припев, сначала DS, затем:

0:30
206080, Russian romance..
1:06 206080, Theatre, comedy..
1:53 203090, Spoken word..
3:24 101090, Poetry evening

* во всех стилях было [Male vocals], полные композиции и Style в
разделе на сайте.

То, что "заказывал", не получил. К слову, еще с опытом Standup'а система показала, что без музыки/ пения генерить не желает (или я даю не те команды, промпт). Вокалист везде пел (даже если и начинал с речитатива), во всех треках песенная форма, хотя я использовал Lyrics без команд Verse, Chorus. Однако, некоторые образцы - выразительные, романтичные баллады. Правда, это можно было бы получить и без DS и режима Cover 😊.
00:08
Выводы:

1. Сырой вокал/ голос как DS с режимом Cover - вполне рабочий способ получить готовую композицию. Причем, нет необходимости пропевать целиком всю песню. Из Verse1+ Chorus1 система сгенерит и Verse2,3, Chorus2,3, если вся структура прописана в Lyrics. Единственное - желательно соблюсти одинаковый размер в тексте. Также отрабатываются Intro, Bridge и пр. Впрочем, Suno и без этих команд обычно старается генерить нормальную форму.

2
. Если важно сохранить мелодию, тональность, темп, ритмику, то, соответственно, надо позаботиться, чтобы в DS все было максимально четко - спеть под метроном, применить autotune (если не чисто спето). Да, нужно помнить - одна и та же мелодия может быть гармонизована по-разному (хоть и правильно). Многое связано с выбранным стилем. Ну, ... и нет гарантии, что система подберет гармонию правильно или так, как вам хочется.

3
. Style*. Конечно, надо задавать то, что ближе к DS или, по крайней мере, не сильно конфликтует с ним. Так моё "навязывание" [Rock 'n' roll] для медленного трека с размером 6/8 - явное несоответствие.

* Exclude styles у меня последние 2 недели работал странно: иногда то, что туда прописывал (например, Guitar) после генерации в треке указывалось с "минусом" (Pop ballad, - Guitar). Но часто просто добавлялось к тому, что указано в Style. Для примера 4 пытался исключить почти все инструменты, но они просто добавились в стиле

4.
Влияние параметров. Баланс Style / Audio influence и с полными DS (музыка + вокал) не всегда работает, а здесь только вокал, порой невнятный. Т.е. системе иногда сложно взять что-то "музыкальное" из DS. По идее, в этом случае Style должен превалировать, но значение параметров и результат это подтверждают не всегда.

-----------------
P.S.
Много интересных генераций из этого эксперимента (все на сайте), два полных трека решил поместить здесь. Первый, кажется, ужасно близок к нашей эстраде 90-х, второй - реально красивая баллада.

В начало поста ⬆
🔥 5 👍 3
00:08
"Вещий сон". Synth-pop..
1
00:09
"Вещий сон". Poetry evening..
🤔 3
20 September 2025
AH
01:23
Исправление вокала: Suno > Riffusion

Ранее я уже затрагивал тему исправления ошибок в вокале в генерациях Suno. Теперь — более легкий способ ("полуавтомат").

Кажется, с платным тарифом v4.5 ошибок с ударением или не той гласной, меньше, чем в v3.5. Однако, часто бывает ситуация, когда жалко отказываться от хорошего варианта. Тут может помочь функция Swap vocals версии FUZZ 1.1 (free) в "классической" Riffusion. Причем, все можно сделать с Audacity.

1
. Вырезаем небольшой фрагмент с ошибкой. С "запасом" — с парой слов/ слогов до и после. В моих экспериментах получалось 3-5 сек.

2. Загружаем
его в Riffusion (Upload) — система транскрибирует вокал.

3
. Корректируем Lyrics. Для ударения пишем гласную с диакрити́ческим зна́ком (заглавные и удлиннение гласной у меня в Riffusion не работали). Для правильного произношения, если это необходимо, меняем гласную, т.е. делаем орфографическую ошибку.

4
. Задаем параметры — от них во многом зависит результат.

5. Генерим
несколько, меняя параметры, и выбираем лучший.
👍 2
01:23
6. Вклеиваем сгенерированный фрагмент на место с ошибкой.

Генерации, как слышно в примерах, могут немного отличаться по звуку (изменение спектра, чуть меньше уровень) и весьма заметно в вокале — всё зависит от заданных параметров. Что-то можно скорректировать при сборке, если вариант в принципе подходящий (ошибка исправлена и стиль не сильно изменён).

Нет необходимости вклеивать фрагмент целиком — достаточно лишь кусочек с самой ошибкой. Естественно, с фэйдами и выбирая для склеек места с минимальной амплитудой. Кстати, в моих экспериментах все генерации были чуть короче, чем исходный фрагмент, но начало и ритмика совпадали.

Важные моменты
параметры Swap vocals:

Vocal variatio
n (кнопка в конце волны фрагмента) — определяет степень изменения вокала (0...100%). Оптимальное значение — около 30%. Ниже — ничего не изменит или будет что-то невнятное, выше — сильно отклонится от исходных мелодии, ритма, тембра.

Soun
d > Prompt пусто, т.е. ничего не вписываем. Strength 20% (минимум), т.к. изменять музыку у нас задачи нет.

Lyrics strength
— влияние текста (0...100%). Оптимальное значение — 90%. При 70, 80, 100% результат получался хуже.

Weirdnes
s — странность/ случайность (0...100%). Ставил в 0%.

Примеры.

1
. Делал кавер в Suno v4.5 на свою песню "Помоги мне тебя понять" (2006 г.) в исполнении Vocaloid. Система пропела:

"...я не, я не, где ты ...", а нужно было
"...я не знаю, где ты ..."

1-й
трек — исходный фрагмент + исправленный. Ошибка на 0:08.
2-й трек — сначала именно тот, короткий фрагмент, который исправлял, затем несколько генераций с разными значениями параметров.

2
. Исправление ударения в песне "Вещий сон" (одна из версий) в слове "кружит". Пробовал "крУжит, круужит, крууужит", но сработало только кру́жит с акут (диакритическим знаком).

1-й
трек — исходный фрагмент + исправленный. Ошибка на 0:03.
2-й
трек — сначала именно тот, короткий фрагмент, который исправлял, затем генерации с разными параметрами.

Вывод
. Подход не идеальный, но может выручить в критической ситуации. И он намного проще, чем разделение Voc/Inst + "ювелирная" работа в вокальном треке с фонемами с точностью до мсек.

P.S. Конечно, можно через Riffusion "прогнать" всю песню, но в ней может появится много изменений. Причем придется прописать во многих местах ударения (т.е. акут) 😢.

В начало поста ⬆
🔥 6
23 September 2025
AH
00:08
Suno, Cover: «На свободу с чистой...»

Это название моей статьи на Хабре — обобщение экспериментов с Cover (Suno v4.5), уже представленных в канале (L1, L2, L3, L4, L5), плюс частное мнение об основной претензии к музыкальным ИИ (обучение на известных примерах) и более подробный разбор причины ошибок в гармонии как при обновлении музыки, так и при гармонизации вокала.

В комментариях к статье один из вопросов касался каверов на известные композиции (как правило, стараюсь этого не делать, а если сделал, то не выкладывать). К слову, для кавера по закону нужно разрешение от автора/ правообладателя. То, что и до ИИ этого было много, понятно: тысячи коллективов делают каверы, к примеру, ребята, играющие в ресторанах, не говоря уже о любителях. Порой это превосходные образцы. Но маловероятно, что во всех таких случаях были получены разрешения.

Возможно, Борис, когда у него появится свободное время, поделится хитростями преодоления запрета Suno на работу с треками известных артистов 😎.
👍 10 🔥 3
27 September 2025
AH
00:01
Нетипичный запрос — необычный результат

Знакомая из театральной студии посетовала, что у ИИ всё какое-то правильное, позитивное, несерьёзное ☹ ... и задала вопрос: как сгенерить странную музыку? Я себе расшифровал это так: что-то "вне тональности и ритма, со странным пением и депрессивное".

Понял, что Punk, Thrash metal, Psychedelic или Avant-garde jazz, здесь, похоже, не подойдут. Как должен подобный стиль называться? Может что-то из Movie horror или из Computer game? И хотя самому ближе акустика, лирика, слегка jazzy, начал пробовать.

Проверил чужие промпты (+ Creative boost). В итоге, с учётом темы пьесы:"Молодой человек в поисках смыслов, непринятие реальности, проблемы с психикой и т.п.", описал формально. Получилось так:

Male vocals, a singer with an unstable psyche, with frequent mood swings, strange, atonal music, experimental, depressive jazz, variable tempo, no stable rhythm, a fantasy from a mental hospital
🔥 4
00:01
Попробовал Riffusion, Sonauto, Suno, Udio.

Текст черновой мне прислали, но тестировал на своём — иначе нельзя было бы показывать примеры. Написал несколько строк прозы, сгенерил в Songly Gift / Cleopatra, подправил — получилось примерно с тем же размером и структурой (Intro, Verse1, Chorus1, Bridge, Chorus2, Outro).

Для примеров выбрал по три трека от каждой системы. Пример (это Verse1, Chorus1, Chorus2 ) собран из разных генераций одной системы, чтобы лучше показать её "отклик" на промпт*.

* Конечно, в каждой полной генерации было развитие и интересные моменты, но ... экономим время. Чтобы оценить картинку нужно иногда всего 2 секунды, здесь же приходится слушать ... иногда бред в понимании обычного человека ☹. Вспомнилось: в моей юности мы непонятную музыку называли "собачатина" или "рак ушей" — категоричность молодости 😊
.

Riffusion FUZZ1.1
. Style: тот же. Параметры: Prompt Strength, Lyrics Strength, Weirdness. Фрагменты из треков: 7b_993090, 4b_997080, 2b_998050.

Sonauto
. Style: тот же ввести не даёт, только теги: experimental, male vocalist, free jazz, psychedelic, depressive, atonal. Параметры: Lyrics & Style Strength, Balance (2.0-0.7). Фрагменты из треков: 4b_20-07, 0a_20-07, 2a_20-07.

Suno v4.5, v5
. Style: тот же. Параметры: Weirdness, Style Influence. Фрагменты из треков: 7b_v45_5090, 7a_v45_5090, 1a_v5_5085.

Udio v1.5 Allegro
. Style: тот же, но система подобрала свои теги: male vocalist, experimental, depressive, dark, manic, disturbing, raw, chaotic. Параметры: Prompt Strength, Lyrics Strength, Clarity. Фрагменты из треков: 1b_505025, 3a_908025, 2a_505025.
00:04
Увлёкся генерацией и не сразу понял свою ошибку: текст ведь от рассказчика, наблюдателя, а не героя с расстройством психики. Тогда музыка, по идее, и не должна быть странной... Ладно.

Выводы:

1
. ИИ ведёт себя как человек — очень сложно сгенерить вне тональности и особенно вне ритма. Вообще-то, у человека "генерация" и восприятие фразовые — даже бессмысленный текст мы воспроизводим с выражением*.

* Давно проводил такой тест со студентами Новосибирской консерватории: сыграть/ спеть сходу с листа мелодию из случайных нот, без размера, темпа, тактовых черт и знаков артикуляции. Все играли/ пели с выражением и фразировкой — духовики/ вокалисты, даже струнники и пианисты, которым не надо брать дыхание.


2. "Библиотеки" у систем разные. И у Riffusion явно ограничена: "А где у вас раздел о...? А... вообще нет, понятно". Результаты у Sonauto, Suno, Udio ближе к заданному Style. У Sonauto почти неисправимые ошибки с ударением, а с этим промптом ещё и 40% генераций без голоса или с бредом. Треки Udio, как всегда, грязноваты, хотя её "развязность" тут вроде к месту. Так что, с учётом всех характеристик, генерации Suno, на мой взгляд, наиболее удачные.

Когда сгенерил и отобрал примеры, решил сделать в Suno v4.5 пару нормальных от лица "наблюдателя". Один — Soft Rap, другой — Nylon Guitar (из моего DS). Отправил примеры знакомой и предложил, если текст всё-таки от рассказчика, то использовать мягкий рэп, акустику или что-то театральное.

--------------
P.S.
1.
Не знаток ни классики, ни авангардистов, но два имени пришли на ум: Шёнберг, Ксенакис. Вбил в Suno "Something like music of Arnold Schoenberg or Yannis Xenakis" + расширитель, получил:
This avant-garde piece uses atonal textures and dense dissonance, with fragmented piano lines, abrasive strings, and bracing clusters from brass and winds. Percussive outbursts and irregular meter shifts create tension, while electronics layer unpredictable timbres and spatial effects throughout


Добавил Male vocals, сгенерил в v4.5 — результат не такой интересный, как с промптом, что использовал для всех систем, но приятно, что Suno понимает, о чём спросили.

2
. Будет настроение — попробую сочинить на этот текст что-то действительно вне тональности и ритма 😊.

В начало поста ⬆.
👍 5 2 🔥 2
00:05
A slow, minimalist track with soft rap verses over deep sub-bass and atmospheric chillwave textures, Sparse percussion underscores a gentle, repetitive piano riff, Subtle synth washes and electronic accents add mood, The melancholy male vocal threads through the spacious, regretful soundscape
00:06
Nylon Spanish guitar. Male vocals, baritone, calm, philosophical. Narrative, home singing style in the low and middle register without high notes. Regret. Singing accompanied only by nylon guitar
2 October 2025
AH
00:02
Suno, Cover: обновляем "задавку"

"Минусовка", минус — от англ. minus one, т.е. фонограмма без одного инструмента, чаще — голоса. Хотя бывают и без гитары, баса, клавишных и др. для обучения или выступления.

Термин "задавка" появился давно и отражает способ получения минуса из полной фонограммы. 2-3 года как ИИ (VocalRemover) позволяет разделять инструментал и вокал (в последних моделях даже солиста и бэквокал) на порядок качественнее прежних методов. Однако действительно чистый* минус можно получить только из студии, где создали аранжировку, записывали песню, или когда он пишется кем-то заново специально.

* на цветной картинке заяц в невысокой траве на лугу. Вырезаем ножницами зайца: на нем немного травы, а на лугу — дыра. Теперь на зайце надо закрасить зелень, а на лугу её дорисовать. Такая примерно задача. Т.ч. даже c VocalRemover минус неидеальный.

За пару дней, как у меня закончился платный в Suno, добавили v5. А тут одни ребята задали вопрос: как улучшить задавку. ОК, еще один тест режима Cover 😊
🔥 2
00:03
Взял 3 известные большинству песни, cделал Split, намеренно понизил качество треков, сохранив в mp3 64kb/s, и стал генерить каверы в v5. Для этих DS (тональность, BPM определены ИИ) сделал всего по одной генерации, и они оказались удачными на мой взгляд. У всех генераций параметры: 20,30,80 (Weirdness, Style influence, Audio influence). В примерах сначала DS (исходник), затем генерации.

А.Иванов "Боже, какой пустяк", Bb minor, 120bpm, промпт: Pop. DS, 1:08, 2:48

Ёлка "Прованс", Eb minor 100bpm, промпт: Dance. DS, 0:47, 2:30

Ю.Антонов "На улице Каштановой", G minor, 115bpm, промпт: Pop. DS, 0:32, 1:48
00:04
Но на практике минус же ещё и двигают вниз/ вверх, меняют тональность, чтобы подстроить под свой диапазон. Это существенные дополнительные искажения: чем больше смещение, тем они заметнее.

Самый большой сдвиг — 6 полутонов (тритон). Тут и вниз, и вверх плохо. Хотя 4, 5 — тоже беда. Но раз уж требуется, то лучше сделать разное смещение для разных инструментов, а ударные вообще не трогать. Например, нужно минус 5. Разделяем* на vocals, bass, drums, guitar, piano, other и смотрим, как смещение влияет на тот или иной трек, насколько естественно он звучит, остаётся ли в своём регистре. Может bass лучше поднять на 7, чем опускать на 5 (это одно и то же, т.к. 5+7=12, т.е. октава). Иногда, смещая тональность, полезно компенсировать изменение тембра (порой "буратинит" или "гнусавит") противоположным смещением спектра. В Reaper на борту ReaPitch (Cockos), в Audacity можно применить MAutoPitch (Free).

* в mvsep это, например, тип "BS Roformer SW (vocals, bass, drums, guitar, piano, other)"

Без разделения на инструменты сделал такие тесты:

А.Иванов
"Боже, какой пустяк" ниже на 3 полутона.
Ёлка
"Прованс" — выше на 3 полутона.
Ю.Антонов
"На улице Каштановой" — ниже на 3 полутона.

Параметры и промпты как в предыдущих тестах. Все примеры в одном треке. Сначала DS (64kb/s), потом генерация:

А.Иванов — Ёлка — Ю.Антонов
0:00, 2:51, 5:08
00:06
Выводы:

1. Качество становится радикально выше даже из таких "убитых" исходников*.

* Формально полоса генераций mp3 192kb/s (в *.wav я не скачивал) — 19kHz, у DS 64kb/s — 11kHz. Низкий битрейт — это не только потеря высоких частот/ прозрачности, но и размытые басы. Если сравнивать с графикой, то это снижение яркости/ контрастности, резкости и упрощение цветового набора.

2.
Музыка-то немного другая! Точно, именно так поступает любой аранжировщик и группа, делающая кавер. Мне кажется это большим плюсом - можно сделать помягче/ пожёстче, в другом стиле, ближе к своей манере исполнения. Т.е. реально освежить известную композицию.

3
. По сути, этот эксперимент — продолжение предыдущих постов (L3, L4) о работе с опцией Cover. И здесь те же самые проблемы: надо обратить внимание на гармонию, форму, лишние соло в Verse/ Chorus. Однако в этот раз я сделал для каждого DS всего по одной генерации с параметрами 20,30,80 и один или оба трека были удачными.

Tак в v5. В ранних версиях принцип тот же, но, очевидно, звук будет хуже и нарушений структуры исходного DS больше.

В начало поста ⬆
👍 10 🔥 2
8 October 2025
AH
00:06
Что полезного есть на бесплатном Kits-ai? (#1)

Не раз уже упоминал Kits.ai — специализированный ресурс для замены тембра голоса (RVC). Последние месяцы функционал на бесплатном тарифе постоянно сокращался: уже нельзя натренировать*, загрузить свою модель, хранить несколько и др. Однако, хотя и требуется "танец с бубном", т.к. загрузки нет**, на Free-плане остаётся ещё много полезного. И 15 мин/мес на конвертации — уже что-то. (Если еще не пользовались, надо зарегиться — я делал ч/з Google).

* но можно модифицировать/ создать из их моделей.
** придётся записывать "с экрана". Я использую
anyRec.

Если бы работал в студии, то, несомненно, сделал бы годовую подписку. А так, ради разовых задач, возиться с оплатой не хочется. Вполне возможно, что подобные преобразования (RVC, Split и др.) можно делать уже прямо в DAW с какими-то плагинами, не знаю — у Kits-ai много полезных инструментов.

На сайте 4 раздела:
Convert, Generate, Clone Voices, Tools


Сегодня я хочу без особой детализации разобрать Tools.
00:07
В Tools 5 инструментов, пойдём от простого.

Key and BPM finder — определение тональности и темпа. Можно Open/ Drop до 10 файлов — система покажет значения в табл. Анализ неидеален, особенно если Key/ BPM переменные, но для обычных треков выдаёт верный результат.

AI mastering — можно отмастерить по пресету (Analog Warmth, Light & Bright, Lush, Punch & Air, Tape Glue, Bass Heavy) или по Reference треку (образцу). Нужно Open/ Drop файл (до 200Mb, до 12мин.), нажать кн. [MASTER] и подождать.

AI Vocal Repairулучшение вокала. Нужно Open/ Drop/ (или Record) файл* и нажать кн. [Repair]. Есть переключение [Acapella] [With instruments] — только голос или с музыкой, и примечание: "С помощью этого инструмента можно исправить плохо записанный вокал или улучшить качество микрофона. Высокое качество звука может не дать желаемого результата."

Попробовал запись с телефона — особых улучшений (без доп. настроек [Settings]) не заметил — что-то вроде небольшого EQ. Показывается волна, можно проигрывать и переключать [Enhanced] [Original] — После/ До.

* на Free только первые 60сек., т.ч. придётся делать частями. Можно ещё автоматически
вырезать паузы в Audacity, а потом фразы снова расставить 😢.

Stem splitter — разделить на инструменты (vocals, drums, bass, other). Нужно Open/ Drop/ до 5 файлов и нажать кн. [Split stems]. Результат выводится в табл. по трекам, можно проиграть (и записать). Также выдается Key/ BPM.

Vocal isolatorизвлечение вокала. Нужно Open/ Drop/ до 5 файлов и нажать кн. [Split vocals]. Крайне полезные опции есть в [Options]:

Remove Instrumental
Remove Backing Vocals
Remove Reverb
Remove Noise

Если выбрать только Instrumental, то на выходе 2 трека (Voc/Instr), а если все опции — то 4 (Instrumental, Backing Vocals, Reverb, Noise). Т.е. именно то, что нужно для качественного RVC. Преобразование связано с определением тона (Pitch), для чего требуется максимально чистый, "сухой" вокал. Мне показалась работа этого алгоритма kits-ai (особенно с бэквокалом и реверберацией) очень приличной. Key/ BPM выдается.

При записи результатов Stem splitter и Vocal isolator "с экрана" в отсутствие загрузки (когда все треки имеют одинаковую длину), возникает проблема — синхронизация дорожек в DAW. Тут работу можно заметно облегчить, применив приём киношников — хлопушку. Надо добавить в начало трека короткий звук, содержащий "всё". Я специально собрал такой звук (5 мсек), в нём: Kick, Hi-hat, Bass, Guitar, Sax, Piano, Vocal. После разделения в начале каждого трека будет "тычок"... в DAW нужно лишь поставить все "тычки" на одно время 😊.

‼ Использование всех этих 5 инструментов не приводит к списыванию времени конвертации (15 мин/мес) 😊 и все преобразования сохраняются.

В начало поста ⬆
👍 4 🔥 4
00:07
"Хлопушка"
👍 5
16 October 2025
AH
00:10
Почему MIDI ?

Полученные в последние дни вопросы показали, что стоит уделить немного внимания теме MIDI* 😊.

* Musical Instrument Digital Interface — способ "общения" электронных музыкальных инструментов и программ с ними с помощью специальных команд. Эти команды (начать/ прекратить играть ноту, громкость, тембр и др.) можно сохранить в виде файла *.mid. По сути, это "электронная партитура", которая в графическом виде представляется в ПО в панели Piano-Roll...


Музыкальный ИИ, кажется, более других технических новаций способствовал вовлечению в творчество миллионов не музыкантов. Освоение муз. ИИ, пусть и не профессиональное, но... обучение музыке. Даже при простом применении ИИ надо разбираться в жанрах, инструментах, форме, каких-то муз. терминах. Если в голове вертится мелодия (или хотя бы ритмика) — её надо напеть, наиграть, а как? "Правильно или нет" слышу, а сам(а) спеть/ сыграть не могу 😕.

Так вот, нарисовать ноты в Piano-Roll в MIDI-редакторе (или DAW) — верный способ решить проблему.
00:11
Почему *.mid файл звучит ненатурально?

В плеере на ПК можно проиграть mp3/ wav и mid — действия те же, но принцип разный. Если mp3/ wav, то воспроизводится готовая звуковая волна — это может быть как некачественный звук, так и студийная запись реального исполнения. В случае MIDI плеер "разбирает" файл на команды, а затем посылает их встроенному синтезатору, обычно GM (General MIDI). Этот синтезатор имеет ограниченный набор тембров (128), но самое главное в том, что в миди-файле мало (или вообще нет) исполнительских нюансов*, которые, в целом, и призваны оживить механическое исполнение.

* способы звукоизвлечения (штрихи) — акценты, легато, стаккато, арпеджио, форшлаг, глиссандо и др. — то, что обеспечивает выразительность. Есть общие, а есть и специальные конкретного инструмента. Многие указываются в нотной партитуре, но что-то музыкант добавляет сам, а некоторые "возникают естественно", т.к. сыграть иначе невозможно. Так, например, вокалист или трубач разбивает соло на фразы, чтобы брать дыхание.


В итоге, когда мы проигрываем "Симфонию №40" В.А. Моцарта в формате MIDI, то её исполняет не Лондонский симфонический оркестр (хотя ноты те же!), а "оркестр" с игрушечными инструментами, пластмассовым звуком, "музыканты" которого не знают ничего ни о forte, ни о piano и не понимают, что им показывает палочкой "дирижер" 😕.

В муз. ИИ работа с MIDI форматом может пригодится, если вы хотите получить в генерации свою мелодию (или её развитие), сделать минус песни со своим вступлением, проигрышем, своими аккордами в нужной тональности и с нужным темпом.

Буквально на днях я наткнулся на Signalхороший онлайн MIDI-редактор (free), идеальный для первого знакомства с MIDI. Сделал по нему краткую инструкцию, а также записал небольшое видео. В этом редакторе можно собрать черновик своей песни, чтобы потом преобразовать в нормальный по звуку минус в Suno v5 с опцией Cover (что-то можно и в ранних версиях, но с ограничениями). Для примера вы можете открыть в Signal файл (см. ниже), который (точнее, записанный с ним mp3) я использовал для генераций в посте.
👍 5 3
00:12
Если вы готовы разобраться с такими понятиями в MIDI, как Track, Piano-Roll, Channel, Note On/Off (Start/Stop), Velocity, Volume, Pan, Patch, Quantize, Time Signature и пр., то можно попробовать OnyxArranger2.1*.

Это мощный инструмент преобразования и генерации MIDI-данных, позволяющий легко собрать "черновик" для Suno. Здесь партии генерируются автоматически, согласно выбранным аккордам, стилям и доп. указаниям. Для набросков MIDI-песен, с которыми может работать Suno, я сделал несколько специальных простых стилей.

* ниже ссылки на бесплатную версию 2003г., кот. разрабатывалась под моим руководством. В сети можно найти и платные, не отличающиеся по функционалу, а лишь пересобранные под новые Windows. Приведённый выше файл создан в OnyxArranger2.1, но в подобной детализации для генерации минуса в Suno нет большой необходимости.


Link1 — OnyxArranger2.1, ключ, наборы стилей (zip).
Link2 — Видеоуроки (zip).
Link3 — Доп. стили для "черновиков", проекты с этими стилями, инструкция (zip).

В начало поста ⬆
👍 9 2
22 October 2025
AH
00:05
Что полезного есть на бесплатном Kits-ai? (#2)

Отмечал ранее: в Kits.ai (ресурс для RVC) 4 раздела. Смотрим Clone Voices, там 4 опции:

Instant Voice Cloning
— создание речевой модели, DS всего 30 сек.

Professional Voice Cloning — создание своей/ чьей-то вокальной модели. Самая важная функция, но только на платном. Требование к DS, как и в Weights.

Voice Blender — смешивание голосов, причем даже речевых и инструментов. На free — только из библ. Kits, на платном — и из своих моделей. Берём две*, задаем пропорцию, жмём [Blend], сообщает Merging (смешивание), сразу предлагает выполнить RVC**. Грузим трек, обращаем внимание на кн. [Acapella] [With Instruments]. Если acapella, то сделает RVC и выдаст только измененный вокал, а не песню с музыкой.

* Взял Male Modern Soul и Solo Saxophone 50/5
0%.
** Там еще есть множество полезных настроек (Vibrato, EQ, Delay, Reverb и др.), но всё на платном.

В примере: DS (мой кавер "I Just Called", S.Wonder)
1:48 — Male+Sax (50/50%)
2:19 — только Male Modern Soul
2 🔥 2
00:06
Комментарий к примеру.

Не раз уже отмечал, что результат с RVC не гарантирован*. Поэтому любое искажение модели, как, например, сложение двух голосов, как правило, только ухудшает результат. Male+ Sax делал ради прикола, и заранее знал, что выйдет что попало.

* Когда узнал о технологии, сделал много примеров со своей моделью (причём на разных языках) и сам убедился, что голос не везде "мой".

Надо отметить, если бы в reference треке был саксофон MIDI, а модель была собрана из хороших образцов реального саксофона, как в Kits, то и в этом бы случае мы натуральный саксофон не получили, т.к. кривая Pitch осталась бы неизменной и никакие характерные исполнительские приёмы не были бы добавлены (это не то, что происходит в Suno в режиме Cover).

А с моделью Male Modern Soul всё, как и предполагалось: только вокал сухой, т.к. Kits делает удаление Reverb/ Delay (см. Vocal isolator), а добавить FX на free-аккаунте нельзя.

При использовании Voice Blender время конвертации (15мин/ мес.) не списывается. А вот при замене тембра — ровно столько, какова длительность трека. Т.ч. если хочется сэкономить (хлопотно, но иногда это единственный выход 😕), то лучше:

1. Самостоятельно разделить Voc/ Instr.
2. Вырезать в вокале паузы.
3. Преобразовать Voc (RVC).
4. Скачать (точнее, записать) результат.
5. Расставить слова/ фразы в исходное положение. Заодно и FX можно добавить 🙂
6. Соединить с музыкой.

Важное: создав смесь моделей, мы заняли единственный Slot (ячейка) доступный на free. Чтобы сделать или модифицировать др. модель, надо его освободить: "три точки" > [Delete].
3
00:07
Последняя опция в Clone Voices:

Voice Designer — модификация (морфинг)* и "генерация" модели.

* Абсолютно логичное расширение функционала с точки зрения инженера: "Давайте добавим такую функцию, раз у нас есть возможность". Ранее много занимался морфингом и проверил на практике, что даже если мы технически можем плавно переходить из "длинного зеленого" в "круглое оранжевое", то это само по себе не гарантирует получение в промежуточных точках чего-то классифицируемого человеком и, соответственно, им востребованного.


Здесь голосовую модель (Male/ Female) можно:

1. Задать промтом (Text Designer).
2. Выбрать из набора (Visual Designer): Pop, Rock, R&B, Rap, Traditional, Latin.

А также задать характер звукоизвлечения, балансируя между Breath, Power, Warmth (с "придыхом", с "опорой", с "теплотой"). Есть еще Randomness (случайность) 0-100%.

Задали параметры, нажали [Create voice]: создается модель на основе того, что есть в библиотеке Kits. Занимается Slot > можно делать конвертацию.

Для промпта я сначала попробовал: "An extremely sweet, doll-like, almost childish female voice for a single or a flirty song" — хотел получить что-то максимально "няшное". Преобразовал — как бы ничего сверх обычного. Kits сам придумал название: Sugar Pop Doll.

Ок, идём в противоположную сторону, пробую:"A terribly hoarse, scary, very low male voice, like from a horror movie". Тоже ничего особенного. Название от Kits: Midnight Gravel Horror Bass.

Кстати, при выборе голоса для конвертации к нему можно применить балансировку "характера" (Breath, Power, Warmth). Взял Female Pop Country, сделал Breath 100%, нажал [Create] > показывает Merging (смешивание)... преобразует мой трек, не жалуясь на диапазон ("Pitch detection: Okay").

В примере: DS (мой кавер "I Just Called", S.Wonder)
1:07 — Female Pop Country — Kits сам поднял на октаву.
2:13 — Female Pop Country c Breath 100%. Kits не менял регистр, особо "придыха" не прибавилось, а голос стал слегка агендерный.
2 👍 1 🔥 1
00:08
Вполне возможно, что кому-то с опцией Voice Designer удастся создать/ модифицировать голос по своему замыслу. Но, думаю, любое "размытие" чего-то цельного (в данном случае тембра/ модели) только ухудшит его распознавание. Что-то вроде такого: суп имел явный мясной вкус, а в него добавили... рыбу. RVC — это и так, по сути, смешение исходной интонации и нового тембра... Мне кажется, надёжнее выбирать яркую, характерную модель под задачу с пониманием, что при конвертации какие-то признаки модели будут утрачены.

P.S.
1.
В последние месяцы Kits существенно пополнили библиотеку моделей: появилось много латино-, афро-, национальных, региональных голосов, есть даже два русских (Male Slavic, Female Slavic — хотя не факт, что собраны на русском материале). Полагаю, большинство и др. моделей будут работать с русским языком, хотя надёжнее выбирать испанские и итальянские. А вот на хинди уже 7. Год назад их не было, и чтобы собрать модель с высоким "кукольным" ж. голосом, как в индийских фильмах, мне пришлось вытаскивать образцы из песен на YouTube 😕

2. Примечательно, что при регистрации в опроснике один из ответов на "Как вы собираетесь использовать Kits ?" — "Изменять голос в Suno/ Udio песнях" 🙂

В начало поста ⬆
🔥 3 👍 1
30 October 2025
AH
00:11
Встречаем UVR online !

UVR online — еще один ресурс для разделения фонограмм. Всё обычно - ребята собрали готовые алгоритмы, интерфейс, подключили вычисл. мощности и зарабатывают. На free* аккаунте есть:

Музыка и вокал
(весь)
Оставить бэки (voc и муз.+ бэки)
Извлечь бэки (voc, муз., бэки)
Бас и остальное
Ударные и ост.
Гитара и ост.
Саксофон и ост.
4 дорожки (Drums, Bass, Voc, ост.)
Эхо/реверб. и ост.
Звуки толпы и ост.
Реставрация (шум и ост.)

* проходит СБП оплата через
boosty .to, связанного с UVR online. Минимум это 250 р./мес и 330 мин/нед.

Модели на free акк. работают вполне прилично, в частности, Извлечь бэки и Эхо/ реверб. (пробовал на сложном треке"Wind of Change", Scorpions).

В день дается 12 мин., выход в mp3 320kb/s. Максимальная длительность — 8 мин., а на Извлечь бэки — 1 мин. (т.ч. придётся частями).

Важное
:
❗Нет кн. "Пуск" — сначала выбрать тип, а потом грузить файл.
❗Результат (Акк. >Мои сборники >История) хранится недолго (4-5 час.) — лучше сразу скачивать.
1 🔥 1
00:11
В панели Другие сервисы есть секция "Изменить тональность или темп" — поднять/ опустить, ускорить/ замедлить минусовку под себя.

Когда "Привязка тональности к темпу" не включена, оба слайдера "Изменение в полутонах" и "Темп, %" независимы, т.е. высоту и темп можно задать произвольно. Выход в wav/ mp3. И хотя уже более 20 лет в DAW/ плагинах используется алгоритм* Штефана Бернзее (S.Bernsee, Prosoniq), здесь качество преобразования крайне низкое (скорее всего ч/з FFT).

* Если стоит задача изменить тональность, то в Audacity можно применить
MAutoPitch (Free), в Reaper на борту ReaPitch(Cockos). В обоих плагинах есть компенсация изменений спектра.

Когда "Привязка тональности к темпу" включена, менять можно только "Темп", а выход только в wav. Качество преобразования хорошее, но полезность** этого режима (выше темп > выше частота и наоборот) весьма сомнительна.

** В моей молодости изменение скорости магнитофона вдвое (с 9.53 на 19.05 см/с) использовали басисты, чтобы "снимать" свою партию, т.к. бас в фонограмме, поднятой на октаву, слышится отчётливее.


Используя этот режим, нужно помнить, что изменение темпа стоит делать дискретным и смотреть, что "Изменение в полутонах" целочисленное. Иначе изменённая фонограмма уже не будет соответствовать стандартной настройке муз. инструментов (Ля 1-й октавы = 440 Гц), и пианист подыграть не сможет.

❗Преобразование и скачка по одной кн. "Скачать файл".
00:12
На платном акк. моделей больше, как типов (есть Фортепиано, Струнные), так и для конкретного типа. Например, 4 для Музыка и вокал. Есть чат, где подписчики задают вопросы разработчикам, обсуждают качество моделей, делятся опытом. Так что в целом UVR online — достаточно живой и полезный ресурс.

P.S.
1
. В последние пару недель многие сайты (kits, weights, udio и др.) грузятся плохо или вообще не грузятся. По крайней мере, тут, в Адлере/ Сириусе. UVR online я и нашёл после того, как mvsep не открылся, а vocalRemover сказал, что дневной лимит превышен. По этой причине и не доделал 3-й пост по free kits-ai.

2
. Suno на днях обновился, и теперь на free доступна только версия 4.5 all. Сначала загрустил, т.к. лишь в v3.5 (с прежней версией генерации вокала) была возможность сгенерить (на основе DS) песню сразу со своим вокалом, хоть и грязноватым, и не всегда гарантированно — L1, L2 (см. 07.2024). Ни в одном другом сервисе, что я пробовал, этот трюк не удавался*. Да, а Борис написал, что на платном тарифе есть все прежние версии 🙂

* вроде что-то есть в Mureka — "можете выбрать из множества вок. тембров ... или загрузить свой собственный сэмпл. .. ИИ воспроизводит ваши вок. характеристики, позволяя создавать песни в вашем стиле". Но проверить это пока не удалось 😕

3
. Получил несколько вопросов по RVC (смене тембра). Не раз уже касался этой темы ( L1, L2 ), но... похоже, придётся к ней вернуться.

В начало поста ⬆️
3
4 November 2025
AH
23:50
С годовщиной канала, друзья!

Всего вышло 108 постов (16 от Бориса 🤝). Цели канала — в закрепленном посте; там нет ничего о продвижении музыки и предложении услуг*. Комментарии не подключены, негативных реакций нет — зачем снижать настрой ("уныние — грех") и зря тратить время?

* Общаюсь с музыкантами, которых знаю давно. Если на меня выходят (были и персоны с нашего ТВ) — стараюсь научить их самих или их помощников. Некоторые запросы вдохновляют на эксперименты и новые посты — это ПЛЮС. Но какая радость работать над DS или песней с матом? Такое слали и это МИНУС.

Мы в новой реальности:

▫️Большие игроки переходят от конфронтации к сотрудничеству.
▫️ИИ-артисты подписывают контракты с лейблами.
▫️Функционал лидеров муз. ИИ всё больше удовлетворяет профессионалов (вроде более 50% уже используют).
▫️На free акк. в чем-то сокращаются возможности.
▫️Сервисы множатся, как грибы.

Сделал оглавление по темам за год — так удобнее, чем искать через поиск.
🔥 7 6
23:50
Upload Audio
Аранжировка: 18, 19, 20, 21, 22, 23, 116
Гармонизация: 16, 370, 495, 520
Cover: улучшение трека, из MIDI, из черновика, реставрация, примеры, из сырого вокала

Голос(а)
Свой: 13, 50, 266, 346, 352, 356, 407
Известные: 27, 453, 463
Детский: 17, 169
Дуэт: 85, 205

Замена тембра (RVC): 11, 34, 40, 418, 622

Текст: произношение, влияние, генерация, ударения, проза в стих, исправление

Промпт: ч/з Upload Audio, редкий, расширение, генерация, специальный

Жанр: 66, 223, 394

Звукоинженер
Audacity: измерить RMS, экспорт в mp3
Split (трек на дорожки): 612, 615, 628
Мастеринг: 38, 155, 331
О MIDI
🔥 8
23:51
Ноу-хау
Suno: длительность частей, акапелла, вокалистам, скачать трек, освежить минус
Riffusion: правка вокала
Udio, Sonauto, Riffusion, Suno: удвоение голоса, правка муз./ текст, Intro/ Outro
RVC: Нормализация гендера

Идея: Альбом одной песни, персональная модель, крутящаяся грампластинка, Standup

Музыкальные навы
ки: 159, 449. Секреты музыки

Разное
Suno франшиза: 72, 516
Видео/ графика: 57, 111, 195
Конкурс: 364, 378
Наука
Оплата сервисов
Профессионалы о муз. ИИ: 24, 244
Технология: 211, 216
Тренды: 101, 514
Юридические вопросы, copyright: 73, 199, 288, 298, 445, 540
👍 3 🔥 3
23:52
P.S.
На фоне изменений в музыкальной сфере порой хочется присоединиться к ворчунам:"Уже никогда не появится что-то сравнимое с токкатой и фугой ре-минор И.С.Баха, гитарным соло Д.Гилмора в Time (Dark Side of the Moon)" и т.п. Но это всё из серии: "В моей молодости звёзд на небе было больше"…

Развитие технологии, приносящей прибыль, не остановить. Выделиться в такой лавине музыки автору-человеку будет всё сложнее. Больше людей станут творить, кто-то побалуется и бросит, а те, кому есть что сказать, начнут изучать не только сервисы, но и элементарную теорию музыки. Это уже происходит.

Случайно заметил: 15-летняя внучка слушает "Smells Like Teen Spirit" (Nirvana) — после 2–3 лет увлечения BTS. Да, BTS — большие молодцы, но приятно, что подростка интересует уже что-то посложнее, где, на мой взгляд, души больше 😊. В общем, жизнь продолжается!

К началу поста ⬆
👍 14 9 🔥 4 👏 3
11 November 2025
AH
00:05
Сохрани ритмику, измени мелодию!

Реальная история: театр, пьеса, готовую музыку нарезали к действию по секундам. Спросили у автора разрешение — дорого. Нужна другая музыка, аналогичная по ритмике* и настрою. Опция Cover в Suno не подойдёт — мелодии сохраняются.

* Как-то имел похожую ситуацию с YouTube: записал
видеоуроки для курса "Развитие чувства ритма" под зарубежные хиты — не пропускает. Пришлось сочинить своё в этом же темпе, гармонии и наложить (в видео голос был вместе с музыкой).

Честный способ — сочинить аналогичное по ритмике и стилю, и записать. Но это ещё дороже, да и дольше.

Нечестный, но по современным законам пока рабочий — изменить мелодию в исходной. Легче всего, разбивая на фрагменты по сетке и смещая их по тону (PitchShifting). Варварство, конечно, но ... Да и по Copyright известные пьесы без изменения не пройдут**.

** взял несколько примеров из моей обучающей
игры "Музыкальная викторина" — почти для всех: "... audio matches existing work of art".
👍 1 🔥 1
00:06
Для тестирования этого метода использовал часть из "Марш Тореадора" (опера "Кармен", Бизе). Сначала разбил на фрагменты по 1/2-ой: одни оставил в исходной тональности, другие поднял на 2 полутона, а часть опустил на 1 полутон. В итоге — бред*.

* Однажды в Новосибирской консерватории я спросил у одной скрипачки об исполнении абстрактной музыки: "Как вы это играете, ведь оно неестественное?". Ответ: "Сначала непривычно, потом уже интересно, есть художественная сторона, есть техническая... как в спорте, например, в гимнастике".


Разделение по 1/2-ой Suno не пропустил (распознал таки Бизе), тогда я разбил по четвертям — бред усилился, но система DS приняла.

Генерю в режиме Cover (v4.5-all), промпт: "Symphonic orchestra, opera march character, bright strings section, brass hits, clear driving rhythm."

В итоге — вполне естественная композиция, с динамикой, свойственной симфоническому оркестру. "Композитор/ дирижёр" честно бред развил и исполнил. Причём в середине (0:58 — 1:31) "дописал от себя" что-то более человеческое! Потом вернулся к материалу DS уже энергичнее и сделал логичную концовку — типичная форма AABA. Ну и каждый "музыкант" старательно сыграл свою партию.

Ритмика вначале (до 23 сек.) полностью соответствует DS, т.ч. задача решена, хотя новая гармония характер изменила.
00:08
Исходн., с 25 сек. - DS (PSh по 1/4)
00:09
Генерация
👍 3 🔥 2
00:10
Думаю, за такое этим "дирижёру" и "композитору" в консерватории поставили бы зачет 😊.

Есть метод посложнее, позволяющий сделать результат более музыкальным, - морфинг* MIDI-партитуры, точнее, файла. Эта технология лежит в основе OnyxArranger2.1 (OA21).

* Полагаю, некоторые, слушая музыку, ловили себя на мысли: "Это на что-то очень похоже!". Именно так с темой "Джеймса Бонда": композиторы часто отталкиваются от неё — слегка меняют ноты, но характер остаётся.


Для теста взял две известные темы: из "Шоу Бенни Хилла" ("Yakety Sax", J. Rich и B.Randolph) и к/ф "Розовая пантера" (H.Mancini). Нашёл MIDI-файлы, сделал из них стили для OA21, сгенерил короткие фрагменты**, изменив тональность и гармонию. Отрендерил в mp3 - получились DS.

** С музыкальной точки зрения результат в MIDI не идеальный (многое зависит от тонкой настройки стилей OA21 и согласования гармонии с имеющейся ритмикой). Вручную можно было бы сделать лучше, или стоит это подправить. Но если хочется быстро, то — морфинг.

Промпт для шоу Б.Хилла: "Funny TV show, saxophone solo, grand piano and muted guitar accompaniment, happiness, humor".

Промпт для Розовой пантеры: "Jazz-funk, swing, saxophone solo, clear guitar, brass section, walking bass. Anxiety, mystery like detective movie music".
00:12
Исходн., с 19 сек.DS
00:13
Генерация
🔥 2 👍 1
00:14
Исходн., с 1'05'' DS
00:15
Генерация
👍 3 🔥 2
00:16
Выводы:

1. Кого-то может удовлетворить 1-й способ (смещение фрагментов по тону), но если надо сохранить характер, то лучше применять морфинг в MIDI. В этом случае тональность/ аккорды могут быть любыми (кроме тех, что в исходной версии!). Это полезно при согласовании разных частей.

2
. Генерация в Suno, Cover v4.5-all выдает полные композиции, в которых вначале ритмика DS сохранена полностью. (Фактически это обновление MIDI-черновика, что демонстрировал ранее: L1, L2). Оставшийся материал может пригодится при монтаже.

3
. Параметры Weirdness, Style influence, Audio influence (50, 50, 25) в v4.5-all изменить нельзя, а максимальная длительность DS — 60сек. На платном тарифе генерацию можно выполнить лучше.

4. Кажется, Cover в Suno — клондайк для театрального композитора: слегка коснулся рояля, 30сек. и... вуаля — "твоё" уже играет оркестр (см. пример ниже).

В начало поста ⬆️

P.S
. Полностью примеры представлены на сайте.
👍 5 🔥 1
00:17
DS, с 41 сек. генерация
🔥 9 1 👍 1
17 November 2025
AH
00:02
Никакой магии, просто морфинг!

Решил продолжить тему поста о гармоническом, ладовом (без изменения ритмики) морфинге* .

* трансформация, меняющая свойства объекта. Если из жёлтого в зелёный можно переходить с бесконечным числом промежуточных оттенков, то в музыке всё дискретно.


Ноты в партитуре это события, расположенные на сетке, где по X — время, а по Y — частота. Для перехода из 4/4 в 3/4 и из мажора в минор надо сместить ноты на новые места** (композиторы часто делают подобное). Изменение ритма можно сделать с помощью композиции линейных функций. С ладом, гармонией всё сложнее.

** Соблюдение музыкальных правил обязывает смещать ноты строго по сетке. На пути из 4/4 в 3/4 нет размера 3,5/4 (если только 7/8). Да и смещение нот на 1/4 тона гармонии не прибавит.


Ранее, разрабатывая алгоритмы морфинга, выполнил много тестов с MIDI. ИИ теперь позволяет "допилить" результат по звуку. Для этого поста сделал морфинг известных песен, а также освежил свои старые примеры.
👍 2 🔥 1
00:03
Ритмика.

Как перейти из 4/4 (Beat) в 3/4 (Waltz)? 3х4=12, значит, сетка по 1/8t — в такте будет 12 долей. Нужно:

▫️две исходные четверти (3+3=6 долей) сжать до 4 долей,
▫️две другие исходные четверти (по 3 доли) растянуть каждую до 4 долей.

Соответственно, возможны и обратные трансформации из 3/4 в 4/4, да и вообще любые. Чтобы не перегружать пост, я сделал Инструкцию (MIDI и Audio).

Если говорить о MIDI, то в StyleEnhancer4.0 * есть плагин TimeMorpher, включающий готовые пресеты и также позволяющий задать произвольные функции изменения времени музыкальных событий.

* разрабатывал 20 лет назад.
Ссылка на бесплатную версию с ключом. Платные отличаются лишь пересборкой под новые Windows.

Ниже пример ( Exm4'4... ): вначале 4 такта в 4/4, заполненные 1/16 нотами. Затем их трансформации в 12/8, 6/8, 3/4.
1
00:08
Простую ритмику (Straight Beat), не меняя размер 4/4, можно преобразовать в Bossa-nova, Tango, Swing, Shuffle, но изменение размера намного показательнее. Поэтому: из 4/4 в вальс (или 6/8), из вальса в 4/4 и т.д.

Suno не всегда пропускает известные вещи как по тексту, так и музыке. Сделаем так:

▫️морфинг (TimeStretch) в Reaper,
▫️split (voc/instr),
▫️Cover (Suno v4.5-all) на instruments,
▫️соединить voc и Cover.

Ниже результаты (фрагменты: исх. и морфинг + Cover) для:

1
."Stumblin In", Chris Norman, Suzi Quatro. 4/4 в 6/8 (новый вокал).
2."Hotel California", Eagles. 4/4 в 6/8 (новый вокал).
3."The Last Waltz", Billy The Kid. 3/4 в 4/4.
4.
"Waltz in C# minor", F.Chopin. 3/4 в 4/4.
5."Футбольный марш", М.Блантер. 4/4 в 5/4 + смена лада.

Больше полных примеров с исходными треками, DS, Styles на сайте.

Вывод:
морфинг применим, особенно в связке с опцией Cover — Suno сглаживает его огрехи, делая музыку человечнее 😊. Многие треки, думаю, интересны. Шопена и Блантера делал лет 15 назад — первый в 4/4 смахивает на одесский шансон, а такой "Футбольный марш" можно было бы "сосватать" ОАЭ или Катару 😊.

В начало поста ⬆️
5 👍 3 🔥 1
00:45
👍 7 🔥 1
22 November 2025
AH
00:02
Зайти в Suno с известной лирикой?

Каверы на известные песни делал редко, всего 3-4. Если песня/ Lyrics зарегистрированы, Suno отказывает в генерации: "Lyrics contained copyrighted material".

Есть негарантированные способы преодолеть запрет:

1. Невидимые символы.
2. Непроизносимые буквы.
3. Свой "левый" текст к основному.
4. Изменить текст, но не фонетику.

Для теста взял "I Just Called to Say I Love You" , S.Wonder. (IJC)

Невидимые
символы.

Самые известные — "неразрывный перенос" и "табуляция". На IJC не сработало, Борис сказал, что Suno теперь их фильтрует. Но есть и другие — может, что-то сработает, я не проверял.

Непроизносимые
буквы.

Например, ъ, ь — на IJC работает! Поставил всего по 2 буквы на строку:

ъ
No New Year's ъ Day to celebrate
ъ No chocolate covered ъ candy hearts to give away
...

Похоже, эти буквы в англ. надо ставить так, когда ДО и ПОСЛЕ согласные, где есть естественное прерывание (гласные и назальные согласные часто сливаются).
👍 4 😱 1
00:02
Дополнительный текст.

Поставил в IJC в начале и конце:"Мужской вокал, Мужской вокал, Мужской вокал, Мужской вокал" — работает! Хотя можно прописать вокализ/ Scat или свой "самодельный" куплет, с аналогичным размером/ ритмикой. Но с такими дополнениями придётся результат редактировать (отрезать начало, дописывать окончание и т.п.).

Изменение текста
, но не фонетики*.

* Надо помнить, что набор звуков в языках разный, можно лишь условно говорить, что в русском и в английском "A" одинаковые.


Речь о замене части английских слов на созвучный вариант на русском (транслитерация). Я использовал АлисаAI и сделал несколько вариантов, командуя: "замени каждое 6-7 слово, каждое 4-5, каждое 3-4 ... все слова". На IJC не работает!

Но нью
Year’s дей to селебрэйт
Но чоклэт covered кэнди хартс to give эвэй

Самое удивительное, что, делая примеры для предыдущего поста, я использовал этот же способ для "Stumblin In" и "Hotel California", и он работал. Заменял пару слов в строке, которые проще, также проверял на слух в GoogleTranslate. Иногда переписывал, например, "ссач", вместо "сач" для "such", где-то удваивал гласную.

100%, что Suno русское слово (пусть и неправильное) в английском тексте синтезирует по правилам русского языка. Мне показалось, что местами стал проявляться акцент 😊. Отправил друзьям (носителям языка), жду ответ.

В начало поста ⬆️
🔥 7 👍 1
27 November 2025
AH
00:06
Спросите ИИ за промпт!

Задача: создать виртуального артиста - генерить песни и менять тембр голоса (RVC) на свой. Если просто брать тексты и задавать жанр, то "исполнители" будут разными. Нужно сузить разброс: выбрать близкого по характеру певца и генерить в его манере, а для этого особым образом задавать стиль.

Уже много копий сломано на теме промптов, как получить именно то, что хочется. Текстом - жанр, поджанр, инструменты, вокал, манера, настроение ... через DS (Upload Audio). А ведь можно попросить ИИ! Вполне возможно, многие так и делают — я попробовал первый раз.

Попросил АлисаAI: "Привет, напиши на английском промпт для песен, музыки Билли Айлиш, описывая стиль, голос, но не указывая её имя."* Выдала 5 подробных (~360 символов) вариантов:

✔ Минималистичный поп-трек с мрачной атмосферой;
✔ Интимная баллада с электронной подложкой;
✔ Мрачный поп с элементами трип-хопа;
✔ Атмосферный трек с контрастной динамикой;
✔ Минималистичный трек с акцентом на текст.

* Указание имени в Suno не проходит.
👍 4
00:07
Ещё Алиса отметила ключевые элементы:

Темп: 70–85 BPM (медленный, задумчивый).
Вокал: женский, эфирный, с придыханием, уязвимый, иногда с вокальным фрай или шёпотом.
Настроение: мрачное, атмосферное, кинематографичное, интимное.
Инструменты: минималистичное пианино, глубокий бас, электронные текстуры, редкие ударные.
Динамика: контрастные переходы от тихих куплетов к насыщенным припевам.
Лирика: темы тревоги, уязвимости, внутреннего конфликта.

Suno также исполняет запрос (с Creative Boost). Размер промпта: 540 символов.

Аналогичный тест я сделал и для Шакиры. Алиса выдала 7 вариантов — здесь жанровое разнообразие больше:

✔ Энергичный латино-поп с фирменным вокалом;
✔ Микс латиноамериканских и ближневосточных мотивов;
✔ Зажигательный кроссовер с элементами рока;
✔ Танцевальный мировой поп с этническими акцентами;
✔ Эмоциональная баллада с латинским колоритом;
✔ Игривый поп-фьюжн с афро-карибскими ритмами;
✔ Стадионный кроссовер с глобальными ритмами;

Сгенерил несколько треков (v4.5) с этими промптами на тот же текст — стиль музыки вполне соответствует (голоса, конечно, нет).

Задание стиля таким образом — способ остаться в стилистике артиста в целом, реально сужая разброс в генерациях. Для конкретной песни, возможно, что-то следует слегка подправить (темп, инструменты, настрой).

Однако, не "изменяя" артисту, задание можно сделать более точным, если отталкиваться от конкретной песни. Я попробовал с Алисой так: "Напиши промт для песни, похожей на Hotel California (Eagles), описывая стиль, голос, но не указывая её название". Выдала 7 вариантов и ключевые элементы. Сгенерил — похоже.

P.S.
⚡❗Новости тревожные: Suno, вслед за Udio, "прогнулись" и подписали соглашение с Warner Music Group. Суть, похоже, в том, что генерация только на DS, моделях, обученных на артистах лицензированных, "подписанных" (в наших реалиях было бы только на музыке Пугачёвой и Киркорова, например), в смене тарифов и пр. А что с версиями, с Upload Audio и др.?

В начало поста ⬆
👍 8
30 November 2025
AH
00:07
Встречаем TUNEE !

Tunee — генерация от китайцев. Пишут, что на своей модели TemPolor, кто-то думает — Suno франшиза: звук, функции, русский похожи.

Задание
— ч/з диалог (чего хочется) с Агентом, но можно, указав Style и Lyrics. Есть UI на русском. Проверил Upload Audio — работает! Но доп. параметров нет. Скачка — mp3, wav.

Схема тарифов похожа на Suno (27.11.2025), но цены выше. После регистрации — 50 бонусных кредитов. На free — 30 кр./день. Списание кр. гибкое, зависит от задачи. Из-за такой схемы на free: "примерно 6 диалогов, около 15 песен" (В мес.?). Расходы по первому тесту:

2 кр. — анализ файла (Upload Audio, DS 58 сек.);
2 кр. — анализ задачи;
2 кр. — планирование песни;
15 кр. — генерация.

Итого 21 кредит за генерацию 2-х треков (1:30 и 1:38) - Тест1 на DS c моим странным вокалом (RVC).

Basic план — $18/мес. Оплата — карты, Link, Alipay.

На платных вроде легко получить сертификат на комм. использование. Даже на ранее созданные на free, но оплачивая каждую песню.
🔥 7 2 👍 2
00:07
Tunee сделал хороший кавер, сохранив в целом мелодию и гармонию (Тест1).

ОК, а как система "раскрасит" MIDI-черновик? Загрузил инструм. фрагмент (mp3, 58 сек), вбил задание на русск.: "Используй загруженный файл как основу для создания инструментальной композиции, исполняемой акустической группой: бас, гитара, фортепиано, саксофон; сохраняя мелодические линии гитары и баса."

Tunee дала сбой — оба трека по 2 сек. Пишу Агенту — отвечает, что повторит ... Снова 2 сек... и снова (списалось 18 кр. за 6 треков по 2 сек.) Агент: "Произошла ошибка в системе... Несмотря на списание кредитов... я не могу самостоятельно исправить эту проблему... Рекомендую обратиться в службу поддержки... , указав ID генераций".

Через пару часов всё повторил, но с заданием на англ. — Tunee сгенерил. Звук хороший, но далеко по стилю от черновика. Указал на это Агенту, но снова не Soft swing, Small jazz group, а Energetic Latin. См. Тест2.

А что насчет своего голоса (тембра), как было с Suno v3.5? Сделал ещё 2 теста — с речевым и вокальным DS. Сгенерил: звук — ОК, регистр — мой, тембр — нет. См. Тест3-4.

А как с известной лирикой? Погрузил слова "I Just Called to Say I Love You", С.Вандер — Tunee сгенерил свой текст! Спрашиваю, почему не введённый? — текст под Copyright.

Еще вопросы: "Можешь выдержать заданный темп и Key, например 78 BPM и Gm? Секвенцию аккордов?" - Агент: "Точно — нет, но буду стараться".
------------------------
Конечно, 5-6 генераций недостаточно, чтобы дать оценку системе, но что-то уже можно отметить:
▫ хороший звук с DS;
▫ чистый вокал;
▫ Ru — не было ошибок с ударениями (но иногда путаница с Е/Ё);
▫ диалог с ИИ (Агент) - хорошая идея, но порой хочется иметь параметры — более строгий формат задания;
▫ ограниченный жанровый набор (или надо строже с Агентом);
▫ мало времени на Free акк. (21 кр. на генерацию из DS = ~1 песня в день).

В начало поста ⬆
👍 7 🔥 3 2
4 December 2025
AH
00:02
Рик о транслитерации

Получил комментарий от Рика Пола* на треки "Stumblin' In", "Hotel California", где английский частично был прописан кириллицей. Как и предполагал, там появился русский акцент, ну и некоторые "косяки" с ритмикой из-за морфинга.

Алекс, ... в песне «Stumbling In» одна из ключевых проблем — неправильное произношение слова «stumbling»: оно должно состоять из трёх слогов («STUM‑ble‑ing» или, с разговорным акцентом, «STUM‑ble‑in»). Часть «ble» напоминает слово «bull», но менее протяжно.

При прослушивании MP3‑файлов заметил: женский голос в «Stumbling In» местами выдаёт акцент, хотя в начале песни это не так очевидно; мужской голос звучит с явным русским акцентом — как и в «Hotel California».

Главный признак русского акцента — произношение «w» как «v» (как у немцев, которые «v» произносят как «f») и «th» как «z». В записях это непоследовательно: иногда верно, иногда нет, но мужской голос более стабилен.
🔥 3
00:03
Ещё одна проблема — неправильная расстановка акцентов в словах и слогах, из‑за чего фразировка кажется неестественной. Возможно, это связано с переходом с размера  4/4 на 6/8 и адаптацией ритмов.

Англоязычный автор, вероятно, изменил бы ритмы иначе, чтобы они лучше соответствовали естественной фразировке. Например, в первой строке «Hotel California» («on a dark desert road») обычная разговорная фразировка — «on a DARK DE‑sert HIGH‑way». В версии Eagles ритм слегка смещён: «on a DARK de‑sert HIGH‑way» (слово «desert» подчиняется тому же ритму, что и «on a»), но звучит естественно. В твоей версии акцент смещён на «ON A dark de‑sert HIGH‑WAY», что выделяет второстепенные слова и упускает важные акценты. Но ритм несложно скорректировать для правильной расстановки ударений.

* С Риком (Rick Paul) знаком более 20 лет. В 2008 г. он написал английскую версию текста и исполнил мою
песню "Make Me Feel" в дуэте с Беверли Бремерс (Beverly Bremers). [Комментарий сокращен Алисой на 20%]

В начало поста ⬆
🔥 7 👍 3
5 December 2025
AH
00:02
Маккинли о транслитерации

Ещё один комментарий на треки "Stumblin' In" и"Hotel California", где я часть английских слов прописал кириллицей. Маккинли Хиббитс* подтвердил, что местами есть русский акцент, а также нарушения ритмики из-за морфинга.

Спасибо, что поделился этим; это увлекательный обходной путь. Использование транслитерации кириллицы для обхода фильтров авторских прав — это разумное решение. Ты прав, подозревая, что этот метод приведёт к появлению акцента: даже при схожей фонетике синтезатор, вероятно, обрабатывает кириллические строки через русскую фонологическую модель, налагая свои просодические правила (ударения, редукцию гласных и т. д.) на предполагаемый английский текст.
1 🔥 1
00:03
Отвечая на вопрос: да, в примерах с Крисом Норманом, Сьюзи Кватро и The Eagles акцент заметен — особенно в форме гласных и ритмическом темпе. Некоторые слоги удлиняются или сжимаются нетипично для носителей английского, а ударения смещаются в сторону русских фраз. Эффект неоднороден: одни фразы звучат почти естественно, другие — как гибридные. Это любопытный артефакт синтеза речи, связанный с лингвистической структурой обучающих данных. Твоё наблюдение — практическая демонстрация фонологического переноса в аудио генерации ИИ.

Метод может стать художественным инструментом (синтез контролируемого акцента) или диагностическим средством для анализа смещений модели. Я тестировал акценты в ElevenLabs — со своим голосом и голосом Била (B.Bryant). Результаты бывали серьёзными и забавными. Жаль, что тогда я не попробовал русский.


* С Маккинли (McKinley Hibbits) познакомился ~3 года назад, когда он разыскивал audio образцы BigAl (Vocaloid). Он же расказал мне об
RVC и собрал мою первую голосовую модель. [Комментарий сокращен Алисой на 10%]

P.S. В итоге я думаю, что морфинг вполне применим, если есть задача представить мелодию в другом жанре. Если бы не было трюков с транслитерацией, то вокал был бы натуральнее даже при смене размера. Ну и абсолютно точно, что реальный исполнитель в новой версии с изменённым размером/ ритмикой знал бы, как расставить акценты.

В начало поста ⬆️
👍 10 🔥 2
6 December 2025
AH
00:21
Сделать минусовку с Tunee?

Это сериал, детектив! Неделю "пытал" Агента Tunee, чтобы из песни от Suno v4.5 получить минусовку (то, что ранее тестировал с Suno).

День 1.


AU: Делаю Split (Voc/Inst), загружаю инструментал целиком (тут нет ограничения, как у Suno на free). Пишу* Агенту: "Референс-трек — это минусовка, ... надо улучшить качество звука, не меняя структуру, темп, key, инструменты".

Tn:
Описывает трек и предлагает 4 опции:
Balanced Studio Polish
Cinematic Depth Upgrade
Modern Warm Enhancement
I want all directions

AU: Выбираю первую.

Tn: Балаболит, выдает промпт: "Cinematic Instrumental, violin, clean electric guitar, ambient pads, subtle drums, reflective, warm, moderate groove, spacious production" и генерит.

AU:
Вкусно, по звуку вроде Suno v4.5, но это не минус, а инструментал! Море соло добавилось в Verse/ Chorus. Ну ... и сожрал 17 кредитов. (2 — анализ, 15 — генерация). Жду обновления (тут в 00:00 Мск).

* Тексты здесь сокращаю... и диалог был на En
.
00:22
День 2. Хорошо, а если ему скормить песню (не инстр.), попросить удалить вокал, улучшить качество? Гружу трек, пишу Агенту.

Tn:
Анализирует, транскрибирует вокал, проверяет Copyright, опять предлагает 4 опции.

AU
: Выбираю первую.

Tn
: ... выдаёт промпт:"Russian Folk, cello, accordion, light percussion, melancholic, romantic, soft, slow tempo, spacious production, professional studio quality" и генерит.

AU:
ОК — сэкономил (не надо разделять), но снова инструменталка! Пишу, что собираюсь петь под минусовку, никаких соло добавлять не надо...

Tn:
Пишет, что понял...

AU: "Спасибо! Буду ждать завтрашние кредиты".

День 3.
Ну что, продолжим.

AU:
"Давай! Как договорились — без доп. соло!".

Tn:
Генерит, весь вокал заменён выразительной виолончелью!

AU:
Пишу: "Снова виолончельные соло... если не можешь, зачем обещать? Это как лживая реклама! Видимо, ты не всё знаешь о системе генерации!"

Tn:
"Я понимаю ваше разочарование... Чтобы правильно решить эту проблему, надо... Хотите, чтобы я попробовал ещё раз ... строго соблюдая принцип «без доп. мелодических слоёв, только оригинальный аккомпанемент»?"

День 4.

AU:
"Привет, давай продолжим, раз я уже получил новые кредиты!"

Tn
: Генерит, снова виолончель вместо вокала, только потише и отрывисто 😔

День 5.
ОК, ещё раз попробую и брошу. Зашёл с нового акк. (это сразу 80 кредитов!). Решил взять опять инструментал и написать строгое задание, используя обороты Агента из прежних диалогов.

AU
: "Создай музыкальный промпт типа «Russian Folk, violin, cello, home-piano, light percussion, melancholic, romantic, soft, slow tempo, spacious production, professional studio quality» на основе этого референсного трека «MySng. mp3», уделяя особое внимание сохранению исходных слоёв аккомпанемента, структуры, темпа и тональности — без добавления новых мелодических или сольных элементов — для получения чистого, профессионального инструментального (backing track) трека, идеально подходящего для вокального исполнения и записи. Повторюсь: никаких дополнительных соло — ты можешь улучшить только те, которые уже есть в референсном треке."

Tn:
(всё, как обычно, вежлив, болтлив, клянётся ...) генерит... WOW, получилось — оба трека без доп. соло! Есть немного на переходах, что минус украшает, а вокалу не мешает.

День 6.
Подумал: а что не сгенерить ещё парочку, раз работает? Возвращаюсь к проекту.

AU: "Создай новую генерацию с теми же условиями (промпт, референс-трек) и с твоей опцией #4". Тут я проглядел — думал, #4 это суммирование характеров первых трёх, а это оказалось генерация сразу для 1, 2 и 3 (т.е. 6 треков и 15х3=45 кр.).

Tn
: (всё, как всегда ... ). Генерит... треки разные по характеру, и везде опять лишние соло 😞.

----------------
▫Похоже, с Tunee минус из инструментала с улучшением качества все-таки сделать можно, надо только давать построже задание.
▫"Память" у Агента короткая — видно не стоит ссылаться на пред. договорённости в этом же проекте — лучше ему задание снова повторить.
▫Начинает бесить вежливость ИИ в диалогах — как официант в ресторане, кот. отдувается за косяки шеф-повара.
▫Можно освежить старые треки от Suno v3.5, причём с правкой вокала. Только Lyrics придётся вбить, не доверяя распознавалке.

В начало поста ⬆
👍 7 🔥 3 😁 3
9 December 2025
AH
00:02
Часто задаваемые вопросы

Получаю 1-2 вопроса в неделю — кажется, стоит ответить в общем виде. Ощущаю себя инструктором автошколы, приезжающим на Запорожце, когда курсанты на геликах/ бэхах — у многих платные акк.😊.

Настоящий музыкант много слушает, учился, обучается, выступает/ сочиняет. Настоящий звукарь, студиец обновляет ПО, аппаратуру, изучает новинки и "фишки". К ним не отношусь, но знаком.

Занимался муз. железом, ПО, музыкальной акустикой, психологией восприятия, т.ч. скорее толмач между ними. Как инженеру, интересно, как ВСЁ это работает. Возможно, чуть лучше знаю фундамент/ базу, готов делиться, но за нюансами стоит обращаться к профессионалам. Чтобы детально отвечать о муз. ИИ, нужна команда — сервисы множатся, функционал меняется.

Стараюсь подсказать, как решать задачу, но не берусь за исполнение. Причины:

▫Результат с ИИ негарантированный.
▫Если человек не в теме, то обсуждение задачи на 2 ч. занимает неделю. Музыка очень разная, и с кем работал 15 лет, понимание есть не всегда.
🔥 1
00:02
Вот типовые и интересные вопросы*:

* Троеточие — "..." означает "нужно" 😊.

От профессионалов:

1. Сочинил(а) песню, хочу показать известной певице ... женским, а лучше с её голосом.
2. Пою, есть много материала ... песни сразу с моим голосом и манерой.
3. Исполняем джаз, минусовки ужасные ... реставрация старых записей.
4. ... замена музыки на аналогичную с сохранением характера, темпа.
5. Сочиняю разное ... аранжировки.

От любителей:

6. Пою песни от Suno под минус ... подправить голос и свести. 
7.
 Пою под гитару, в Suno v5 делаю аранжировку ... менять на мой голос.
8.
 ... делать 1-2 песни в неделю с голосом подростка для канала.
9. Генерю песни на свои стихи ... исправить ошибки с ударением.
10. Человек не обучался вокалу ... его альбом студийного качества.
11. ... подправить треки, чтобы принимали дистрибьюторы.
12. ... продвинуть свои песни, чтобы заработать.
13. ... убрать нецензурное (англ.) из треков для Hip-Hop конкурса.
14. ... нужен промпт для кальянного рэпа.

-------------
На часть уже отвечал — будет время, постараюсь ответить в общих чертах на остальные.

По # 12 — сразу: Не занимался и не буду. Есть ресурсы, где обсуждаются продвижение и заработок, например, link1, link2 ... Очевидно, что важно:

▫сохранять генерацию в максимальном качестве;
▫получить сертификат на комм. использование;
▫зарегистрировать стихи (если свои);
▫сохранить "следы" работы — скрины, переписку, проекты DAW (если дорабатывали);
▫помнить, что сейчас канал продаж важнее качества продукта (знакомый когда-то "заходил" со своим изделием в ИКЕА).

В начало поста ⬆
👍 9 3
11 December 2025
AH
00:02
Часто задаваемые вопросы. # 13,14

В продолжение поста. Начну с интересного 😊.

Q13.
Нужно убрать нецензурное (англ.) из треков для Hip-Hop конкурса*.

* Сочинская подростковая команда собралась в Москву, а трек "Go Down Deh (feat. Shaggy and Sean Paul)" не прошёл комиссию.

Можно заменить текст в Riffusion (Swap Vocal) или в Suno/ Tunee сделать кавер. Если не идёт по Copyright при транскрибации текста — перепутать фразы (порезать, переставить в DAW). Если по музыке — поменять форму (вырезать характерные Intro, Bridge), изменить темп (на 15-20%), правда потом всё придётся возвращать. Это показалось долгим — решил поработать с вокалом иначе и изменённый вокал смешать с исходной музыкой:

▫Split (Voc/Instr);
Реверс фрагментов длиной в 2(4) такта;
Поднял некоторые части на 7 полутонов (PitchShift), чтобы добавить "детские" голоса.
▫Где-то чуть подвигал по сетке (1/4).

Оказалось, что и задом наперёд звучит, и танцорам годится. См. трек №1 ниже.
👍 3
00:03
Q14. Нужен промпт для кальянного рэпа.

Ну, это совсем не моё, слышу иногда: о чём поётся непонятно, как бы в пику всем правилам дикции, артикуляции и проф. вокала. Борис прислал пару примеров — напомнило что-то народное*.

* Ранее в консерватории общался с фольклористами, кот. ездили в на север, Алтай, записывали бабок, шаманов ... статьи, конференции, диссертации ...

ОК, пробуем:

1. Прошу у Алисы промпт для кальянного рэпа — выдаёт подробные варианты, но для инструментала.
2. Прошу для вокала — выдает несколько вариантов.
3. Беру куски для музыки и вокала, соединяю, чуть правлю, специально добавляю "гнусаво, неразборчиво" и перевожу на англ.

Hookah rap: minimalist beat; oriental melodic lines; atmospheric background textures; deep, non-aggressive bass; occasional percussion accents (darbuka, tambourine); relaxing mood with a slight oriental flair. Male vocals. Vocals with characteristic: warm, slightly nasal timbre; slurred pronunciation of words; half-whispers interspersed with louder accents; syncopated rhythm with pauses on stressed syllables.


4.
В Songly прошу "Rap Generator" превратить кусок прозы в текст для рэпа.
5. Иду на Tunee, вбиваю промпт и текст — готово (трек 2).
6. Иду в Suno с этими же Style/ Lyrics — вуаля! (трек 3).

Ещё пробовал в Riffusion, но там как-то далеко от желаемого. А в Suno/ Tunee, похоже, работает! Хотя гнусавость и неразборчивость еще надо допилить — может делать "косяки", "левую" фонетику в тексте? 😊.

Мне показалось, что "востока" многовато. В примерах Бориса было что-то ближе к Якутии, Туве, Алтаю, может Средней Азии. Попробовал в промпте "восток" заменить на "север", добавил "шаман" — но тут, кажется, стало проступать скандинавское.

ОК, "восток" (oriental) заменил на "Азия". Также для вокала сузил диапазон, добавил "стон, плач" и глиссандо в конце фраз:

Hookah rap: minimalist beat; Asian melodic lines; atmospheric background textures; deep, non-aggressive bass; occasional percussion accents; 80-90 BPM; Male vocals. Narrow voice pitch range—all notes within a fifth (no high or low notes). Dull, very nasal timbre; very slurred pronunciation; monotonous with occasional transitions to a half-whisper; prolongation of the final notes of a phrase with a downward glissando, resembling moans and cries.


Примеры с этим Style для Suno v5 (значения параметров по умолчанию) и Tunee — треки 4 и 5.

Еще один важный момент: структура текста нужна "рэповская". На стих к шансону генерация радикально поменяется, по крайней мере в Suno v4.5-all, где изменить параметры (и усилить влияние промпта) нельзя.

Также остается возможность использовать Audio Upload (известный трек, как DS). Но тут 2 момента: с параметрами надо поиграть, а качество звука будет хуже, чем при обычной генерации.

В начало поста ⬆
👍 6 1
00:06
Ориг., 0'56'' - изменённый
14 December 2025
00:20
Tunee: диалог — бесплатно. Параметры?

Появилась идея расспросить Агента о параметрах, как в Suno с опцией Cover. У Tunee наверняка должно быть что-то подобное «под капотом». Состоялся диалог (приятный момент — за разговор кредиты не списываются 😀).

AU: «Могу использовать параметры Weirdness, Style / Audio influence, ты будешь их учитывать?»

Tn: «Да, я буду учитывать Weirdness, Style / Audio influence… просто укажите значения…»

AU: «Значит я могу указать «Weirdness = 15%, Style influence = 50%, Audio influence = 90%»?»

Tn: «Именно так! Дайте эталонный файл… буду интерпретировать значения... музыкально, а не строго математически...»

ОК (можно подумать, что Suno интерпретирует их строго 😀).

Взял тот же DS (RitaHB – mp3 из простого MIDI), кот. пробовал в прошлый раз. Тогда не знал, что можно задать параметры и генерация была очень далека от референс-трека.

Вдохновленный, написал задание, перевел на англ. и послал Агенту:
1 👍 1
00:21
Максимально улучши качество звучания этого трека до профессионального студийного уровня, сохранив мелодии, гармонию и ритмический рисунок. Сохрани тип каждого инструмента, но замени его богатым тембром, добавив динамические акценты и нюансы исполнения, характерные для каждого инструмента. Желаемая комбинация: акустический бас, нейлоновая гитара, домашнее пианино, легкие ударные, возможно, саксофон. Используй следующие значения параметров генерации: Странность = 15%, Влияние стиля = 50%, Влияние звука = 90%.


От Tunee как всегда, много «бла-бла» (Обзор, Музыкальные элементы, Музыкальная подсказка) потом предложение выбрать вариант:

1. Faithful Studio Upgrade
2. Expressive Jazz Performance
3. Warm Acoustic Blend

Выбираю третий. От Tunee ещё немного «бла-бла», финальный промпт:
Jazz Lounge, nylon guitar, acoustic bass, home piano, light drums with brushes, smooth saxophone accents, relaxed, warm tone, melancholic, gentle groove, studio quality

и генерация.

Ну что, намного лучше с параметрами! См. DS (трек 1) и фрагменты генерации (трек 2). Тональность Dmin сохранил, однако, даже при Style/ Audio influence = 50/90%:

▫️Темп 72 и 78 BPM, а в DS было 70 BPM;
▫️Мелодия гитары сохранена частично и проведена саксофоном;
▫️Мелодия баса не сохранена;
▫️Гармония прежняя частично;
▫️Ритмика другая.

У Suno следование DS было намного точнее. См. пример «Д.р. Риты (RitaHB)» на сайте. То, что соло у саксофона, а не гитары — сам виноват, не надо было вписывать «возможно, саксофон». Но в целом прогресс налицо.

ОК, убираю саксофон, ослабляю Странность и Style. Параметры указываю: 10,10,90.

Стало не ближе, а дальше от DS, хотя темп и тональность сохранены. Tunee сгенерил какую-то банальную отсебятину (особенно в части B, при форме AABA) — кажется, «багаж знаний» у него существенно меньше, чем у Suno. См. пример (трек 3).

В Suno игра со Style/ Audio influence служила поиску компромисса: «окрасить новым звуком, но не отойти в нотах от исходника». Audio influence = 90% было пограничным, и в генерации DS был реально заметен. В Tunee при таком же значении лишь отдельные элементы стали ближе к исходным, но не сама композиция.

Однако, Tunee понимает параметры, они влияют на генерацию, и это хорошо 😀.

P.S. Судя по форуму, Tunee в стадии развития и отладки, а по учебникам — идёт в общем тренде функционала муз. ИИ.

В начало поста ⬆️
👍 4 2 🔥 2
00:25
1a, с 0'58'' - 1b
00:25
2a, с 1'04'' - 2b
22 December 2025
AH
00:22
Часто задаваемые вопросы: # 3,4,5 — продолжение поста

Q3. Исполняем джаз, минусовки ужасные, нужна реставрация старых записей.

В джазе для одной композиции может существовать множество версий. Исполнители к этому привыкли, и изменение* минуса принимается легко. Иногда так: «Вау, у нас своя версия!».

В Suno (Cover) обновление вполне реально, но повозиться придётся:

1. Split (Voc/ Inst).
2. На Inst. сделать несколько Cover. Внимание на параметры (Weirdness, Style/ Audio influence) и Style (хотя удачной может быть и генерация с пустым).
3. В DAW загрузить DS и хорошие версии — смотреть, как выдержана форма.
4. Собрать из удачных кусков композицию точно по форме DS:

- Темп может отличаться — сжать/ растянуть фрагменты;
- Внимание на стыковки;
- Если в Verse/ Chorus лишние соло — сделать пофрагментно Split (Wind/ Other и т.п.) и соединить, уменьшая уровень соло;
- Подправить спектр, если есть явный разброс во фрагментах.

* Если нужны другая форма, Key, BPM — надо сначала пересобрать DS, потом делать каверы.
00:23
Ниже пример, где чередуются фрагменты оригинала* и минуса (Cover). Минус собран из 5 генераций (делал для ребят из Академгородка, Новосибирск).

* Песня «Русская зима» в исп. Н.Бродской (В.Гамалия, Л.Дербенёв, 1967).


Естественно, так можно реставрировать не только джаз — примеры в посте.

Q4
. Нужна замена музыки на аналогичную с сохранением характера, темпа.

На это уже отвечал, см. пост. Тогда вопрос был от театра, хотя подобные проблемы возникают у танцевальных коллективов, да и вообще у всех, когда музыка используется как элемент оформления. Если важно максимально сохранить характер, темп, ритмику, но нет возможности использовать оригинальный трек, то "Cover вам в руки" 😀. Особенно если речь об инструментальном. А если с вокалом, то и свой текст можно подобрать, сохранив размер. По факту — сделать песню-клона. Музыканты и до ИИ подобным занимались постоянно 😀.

Q5
. Сочиняю разное, нужны аранжировки.

Традиционный
композитор- профессионал знает всё об инструментах (регистры, приемы), пишет партитуру (карандашом). Потом он осваивает нотный редактор — тут как плюсы, так и минусы. Но настоящие неприятности его ждут в DAW:

- piano-roll — не нотная партитура;
- "музыканты"- инструменты, как на борту (VSTi), так и внешние, "не догадываются", как играть и все исполнительские нюансы надо прописать вручную. Если что-то перенесётся из нотного редактора, то не факт, что будет исполнено**. Да и партитура не содержит всего, что нужно для управления синтезатором.

** Есть хорошие библиотеки инструментов, включающие штрихи. Преимущество традиционного композитора в том, что он знает, где и как их применять, но работа с ними в DAW — отдельная тема.

В общем, "отдать" партитуру DAW — совсем не то, что оркестру. Композитору приходится быть музыкантами, дирижером и звукоинженером. И выпускнику консерватории, не освоившему DAW ещё в колледже, есть от чего опускать руки.

Музыкальный ИИ существенно меняет ситуацию — "Лондонский симфонический оркестр" доступен каждому (Cover). Но композитору все-таки придётся осваивать DAW, хотя бы в части забивки своих мелодий... Впрочем, в Audio Upload можно подгрузить то, что он наиграл на своём рояле, + составить грамотный промпт... Всё равно "засада" — ведь ИИ исполнит по-своему и ... редактировать генерации придётся (опять) в DAW... Или подождать год-полтора: скорее всего, к Агенту (типа Tunee) привяжут голосовое управление, + вся система поумнеет и... DAW уже не потребуется 😀.

P.S. Посты по аранжировке можно посмотреть в "оглавлении".

В начало поста ⬆
👍 6
25 December 2025
AH
01:37
Найди верный стиль своей песни!

Тема только на первый взгляд выглядит странной. Разве автор текста, аранжировщик, пользователь ИИ не представляет характер будущей песни? У каждого есть любимые исполнители, стиль и, наверное, "видение" нового трека.

У меня тоже свои "любимки", но когда начал эксперименты с Suno, пробовал множество стилей — интересно! На один текст было ~12 версий (отсюда идея "альбом одной песни"). Многие нравились, помещал на сайт, видно, более всеяден 😀.

Стал обращаться к друзьям за текстами и обнаружил, что автор часто:

- не может указать стиль. Знакомая: "Хочу настоящий рок". Сделал 10 версий, но она выбрала Emo;
- принимает стиль, который сам бы никогда не выбрал: "Неожиданно, совсем другое настроение! "

Ключевой момент — цель: реализовать своё видение или получить успех у слушателя?

Повторяющийся сюжет: артист добивается известности и делает своё, а не по заданию продюсера, но публика любит его другого: из 1 млн CD "The Secret Life of Plants" С.Уандера (1979) было продано ~10%.
01:37
Если речь об успехе, то всё как в бизнесе: копируй лучший опыт. Видишь у соседа клубнику разбирают в корзинках — беги за корзинками. Конечно, выбивать себе зубы, как у Шуры, будет чересчур. Он, кажется, говорил, что долго отказывался себе их делать, чтобы не утратить узнаваемость 😀. Но если принимаешь условия продюсера, то и "шортики в крупный горошек, и волосы в розовый". Несмотря на то, что своё это: "мы брутальные, мы метал играем ..."

25 лет назад задача была попасть в ротацию на радио: "вокалист самый крутой в городе, записывались в лучшей студии, а сводить летали в Польшу, всем друзьям нравится...", но... на ЕвропаПлюс не взяли, на АвтоРадио — тоже. Приноси своё, но в стиле как у них. Зачем технарю антиквариат, а антиквару — хайтек?

Сейчас ребята жалуются, что пишут (с ИИ) в любимом "XYZ" стиле, но никто не понимает их в Яндекс Музыке, VK Музыке. Так вам своё или успех?

Мне кажется, что автору не стоит пытаться сидеть на двух стульях. Полезнее быть чуть гибче и допускать другое прочтение. В конце концов, если песня "зайдёт" слушателю не совсем в том стиле, как виделось автору, то ведь это всё равно его песня.

❗Приготовил тест, позволяющий вам провести эксперимент и, возможно, согласиться с моим взглядом на тему: стоит пробовать разные стили. Ниже 7 треков на тот же текст "Роза без настроя" в разных стилях*.

* Хотя я догадываюсь, какая пара треков будет ближе взрослым из РФ/СНГ 😀

❗ВЫБЕРИТЕ трек СЛУЧАЙНО (не подряд), прослушайте.
❗Только ЗАТЕМ ДРУГИЕ.

На 90% уверен, что если другие не слушать, то будет казаться, что так и было задумано. Хотя настроение разное: ироничное, философское, потери, задорное, освобождения, драматичное. Кажется, и смысл текста меняется 😀.

В начало поста ⬆
👍 8 4
01:38
🔥 5 👍 3 1
30 December 2025
AH
00:13
SongCompare — браузерное десктоп- приложение для сравнения песен.

Недавно пришлось собирать минус из 40! каверов (Suno/ Tunee). Обычно сваливаю всё в Reaper: слушать, резать, клеить, помечать прямо в имени трека, вроде "5+, bad, Solo!" и т.п. Места там мало, поэтому даю трекам короткие имена:

RwM-128CtB-Tn-305080-4b Sax (песня, DS, Tunee, параметры, вариант, инструмент).

Но всё в DAW не пропишешь — пробовал таблицу (Word, OpenOffice) — не удобно.

... написал приложение, чтобы слушать, сортировать, ставить оценки по параметрам (Vocal, Words, Melody, Harmony...), делать комментарии и сохранять таблицу в PDF.

Думаю, оно будет полезным как для выбора вариантов, так и для получения обратной связи: послали треки другу — он вернул таблицу с оценками. На сервер треки не грузятся — всё в вашем браузере, т.е. конфиденциально

Определяется RMS, вручную — темп (BPM) и тональность (Key). Библиотеки подключать пока не стал + это развивает высотный слух и чувство ритма. Видео ещё не записал, вот хелп ❄🎄🍾
👍 14 🤔 1
AH
15:35
SongCompare — приложение для сравнения песен.

Записал короткое видео, но детали лучше всё-таки смотреть в хелпе.

* * * * *

Всех с наступающим 2026-м! ❄🎄🍾
Настроения, самочувствия, успехов! 😀
👍 14 🔥 1
21 January 2026
AH
00:07
Часто задаваемые вопросы: #1,2,7,8,10 — продолжение поста.

Эти по сути о замене тембра (RVC). Постов по теме уже было несколько: 11, 34, 40, 418, 622.

Q1. Сочинил(а) песню, хочу показать известной певице, нужно женским, а лучше с её голосом.

Супер идея, если с певицей знакомы, а то и конфликт случится, ведь взяли голос без спроса. Важное:

а) Нужна качественная голосовая модель. Вряд ли можно найти хорошую — то, что в сети, скорее натренировано на "разделёнке" (vocalRemover), а не на студийных dry треках.

б) Референс-трек (вокал, где тембр надо заменить) по манере, регистру должен быть максимально близок к певице. С этим проще, но*.

В случае М в Ж могут возникнуть моменты с регистром. Если М — баритон, то подъем на октаву (12 п.т.) может сработать, и минус можно не менять (что не совсем правильно). Если тенор, то подъём на 6-9 п.т., и минус нужен другой.

* Вначале думал — с RVC смогу делать Ж песни, но манеру не спрячешь! Одна дама: "Лёша, слышно же, что ты пел" 😀. См. примеры.
🔥 4
00:08
RVC делал в kits-ai с их моделями. Видно, что манера остаётся. Отмечал ранее: "Хорошо, одежду поменяли, а походку?"

Q2. Пою, есть много материала, нужны песни сразу с моим голосом и манерой.

Тут два варианта:

а) Найти исполнителя с максимально близкими манерой и регистром. Подобрать промпт(ы), чтобы генерить похожее (в "рамках" одного артиста), затем RVC, используя свою модель.

б) Применять модель, натренерованную на ваших песнях — технически это давно возможно (см. ответ Zaptrem'a). Такое есть у mureka — нужно загрузить пару сотен своих песен. Не знаю никого, кто это уже сделал. По сути, генерация из DS что-то похожее, только модель слабее как по материалу, так и по времени тренировки. Свой голос получался в Suno 3.5 из речевых и вокальных DS (без RVC!), но качество там не айс. Голос клиента в генерациях планирует Tunee, думаю, всё-таки на основе RVC.

Q7. Пою под гитару, в Suno v5 делаю аранжировку, нужно менять на мой голос.

Хороший вариант. Если аккуратно работать с параметрами (Weirdness, Style / Audio influence), то сохранится мелодия, темп, тональность и, если повезёт, гармония. Т.е., по сути, это песня автора, остаётся только тембр заменить. RVC!

Q8. Нужно делать 1-2 песни в неделю с голосом подростка для канала.

Таже схема: подобрать промпт(ы), чтобы генерить похожее, затем RVC с моделью подростка. Можно в референс-треках попробовать "кукольные, няшные" голоса — т.е. в промпте: Sweet, cute, doll-like female voice; Chiptune vocals; Miku voice (Vocaloid), исключая слова kid, child.

Q10. Человек не обучался вокалу, нужен его альбом студийного качества.

Всё тоже самое. Выбрать артиста, стиль, жанр, подобрать промпт(ы), чтобы генерить похожее. Лучше ближе к тому, что человек может сам исполнить, пусть и не так профессионально. Т.е. не стоит "жадничать" — брать Чечилию Бартоли или Пласидо Доминго. Если свой голос не поставлен, тембр не яркий, то результат RVC не будет убедительным. Качество минуса — отдельный вопрос.
00:09
Где и в чём делать модель и RVC?

Возможно, у кого-то хватит терпения и навыков натренировать модель в Google Colab, Hugging Face. На вашем ПК — интерфейс, а тренировка модели — на внешних мощностях. Всё это не очень стабильно. В среднем уходило 3-4 часа на модель в 200-300 эпох*. В начале я это проходил, но позже использовал weights и kits-ai.

* эпоха — один проход по набору данных (Dataset, DS). На каждой эпохе модель улучшается, но после определённого количества может работать хуже (перетренировка). Т.ч. много — не всегда хорошо.

Везде используются одни и те же исходные алгоритмы. Кто-то их "допиливает" и совершенствует, делает удобнее интерфейс, добавляет автоматику, чтобы клиенту было проще решить задачу. За 2 года многое изменилось в дополнительных преобразованиях крайне важных для качества RVC: удаление реверберации и Delay, разделение не только Voc/Instr, но и бэк-вокала.

Чтобы использовать RVC эффективно и с прицелом на максимальное качество, стоит, на мой взгляд, выбирать платный kits-ai. Эти ребята заняты только тем, что связано с RVC, и у них есть все нужные "плюшки".

Однако с приложением RePlay от weights можно всё сделать и на своём ПК. Правда нужна версия не позже ноября 2024 (и не обновлять — в поздних опции тренировки модели нет). Внешне это почти то же, что с Google Colab, Hugging Face — т.е. поизучать, поразбираться придётся. Беда в том, что на обычном ПК тренировка может занять 3-4 дня (в нынешнем темпе жизни это почти вечность). И не факт, что модель (связано с тем, какой DS, сколько эпох и т.п.) окажется удачной...

Недавно 200 эпох на ПК с 4,55 TB/32 GB RAM/8 GB GPU/i7-13700K у меня заняли 11ч.20м. (Борис сказал: "Хорошо!"). Но даже так долго, проще с kits.

В начало поста ⬆
👍 8 👏 7 1
28 January 2026
AH
12:59
Творчество или коммерция?

С появлением музыкального ИИ творить стали многие любители и реальные знатоки музыки, музыкантами не являющиеся, — те, кто сами не играют и не поют. Некоторые решили, что на этом можно заработать. Эта идея сродни той, что возникает у людей, которые "не в теме". Вот спел товарищ в гостях под гитару, пианино, как другие не могут, — тут же вопрос-предложение: "А что ты в ресторане не поёшь?" В студенческие годы я играл и в ресторане, и на танцплощадке, и хорошо понимаю разницу между хобби и профессией.

Как сейчас вижу, заработать с ИИ получается у знакомых не очень — почти все опустили руки. Почему? В памяти всплыли две истории.

1) В 1976-м, после 1-го курса НЭТИ (НГТУ), приехал к родителям (г. Усолье-Сибирское) и встретился с гитаристом школьной рок-группы (после выпускного он уехал на Дальний Восток).

Он: "Лёха, зачем тебе институт? Давай к нам."
Я: "А там город большой?"
Он: "15 тысяч, но с каждого не по копейке, по рублю! А за такие деньги я готов играть и по колено в д..."
13:00
2) Один удивительный* человек, будучи моим формальным руководителем, как-то сказал: "Алексей, вы слишком много изобретаете, а это неправильно. Поймите: идея стоит рубль, изготовить — десять, а продать — сто... Учитесь продавать."

* Он заключил договор между консерваторией и ЦПК: профессора обосновывали подбор музыки для тренировок и отдыха космонавтов. В те времена была популярна тема "Функциональная музыка" — повышение производительности труда на производстве. Не знаю, была ли польза от научных отчётов с плейлистами произведений с указанием тональности, темпа, жанра и т.п., мне казалось, что человек сам может выбрать треки, которые его бодрят или расслабляют.

Мелодия, тема может родиться у человека спонтанно: влюбился, разлюбил, пережил что-то. Свидетельств этому множество. Можно дать себе задание сочинить "на тему", сконструировать и отполировать. И у А.С.Пушкина, и у В.С.Высоцкого не всё в один присест, есть черновики, наброски.

Но что уж точно не происходит спонтанно, так это организация сбыта. В нынешней ситуации в этой сфере у бухгалтера, экономиста, аналитика, математика, спортсмена, похоже, намного больше шансов на успех, чем у "креатора", генерящего идеи на душевном порыве.

Заработок на музыке — отдельная задача, требующая системного подхода. При этом качество самих треков — далеко не главный вопрос. Посмотрите специальные материалы, в частности на этом канале, и вы со мной, думаю, согласитесь. В нашей "высшей лиге" ничтожно малое число исполнителей, и да, они могут за одни новогодние праздники заработать на квартиру. Все остальные вынуждены овладевать профессией продажника — настраивать "ручейки", в надежде, что когда-то они станут "полноводной рекой".

Вполне возможно, что, прослушав треки с сотнями тысяч проигрываний, вы скажете: "А что тут особенного? Я тоже так могу". Если так, то дело лишь (с очень большим ЛИШЬ) в организации сбыта — надо приглушить в себе творца, и включить бухгалтера. Правда, у меня терпения для этого никогда не хватало 🥲.

В начало поста ⬆
👍 17 3 👏 1
4 February 2026
AH
00:00
Часто задаваемые вопросы: #6,9 — продолжение поста.

Q6. Пою песни от Suno под минус, нужно подправить голос и свести.

Если речь о тюнинге (правке нот по тону и ритмике), то занимался подобным очень много, также и со сгенерированными треками. Но всё для знакомых, с которыми работаю давно. Подобные операции выполнят в любой студии и даже дистанционно. Голос можно записать и на телефон, только аккуратно и используя приложение, не вносящее заметную обработку — сохраняющее запись в *.wav, *.aac или *.flac.

Если используете DAW, в которой есть запись "по петле", то лучше записывать частями. Например, 1-й куплет + 1-й припев — получится несколько версий, затем следующий фрагмент. Далее сохранить проект полностью (со всеми файлами) и отправить в студию.

Также в студию стоит отправить неразделённый (Voc/Instr) исходный трек: а) возможно, ребята разделят его лучше; б) они смогут посмотреть, какой вокал был в оригинале.

У меня на сайте есть материалы:
"Рекомендации вокалистам".
"Дистанционная запись и студия".
👍 4
00:01
Q9. Генерю песни на свои стихи нужно исправить ошибки с ударением.

Если в Suno, то, конечно, лучше всего было бы сгенерить новые треки, корректируя Lyrics, с помощью:

▫️выделения ударной гласной: "холодИт";
▫️разбивки на слоги: "мер-ца-ю-щих";
▫️фонетики в ущерб орфографии: "дарога", а не "дорога";
▫️пауз (тире, многоточие, запятая): "во ... все — века";
▫️усиления: "а у ЭТОЙ стены";
▫️указания эмоции/ манеры перед строкой: [Gently], [Whisper].

Эти приёмы могут сработать и при их одновременном использовании.

Если отказываться от версии (мелодия, гармония, стиль) не хочется — есть полумера — Cover на существующий трек.

Корректируем Lyrics, оставляем Style пустым, подбираем аккуратно параметры (Weirdness, Style/Audio influence). Полумера, потому что и вокал, и аккомпанемент претерпят изменения. В какой степени — зависит от параметров. Возможно, задание исходного стиля или другого даст лучший результат, чем "пустой стиль" — надо пробовать.

Изменить вокал, не изменяя музыку, можно в Riffusion. Там, конечно, свои нюансы — посмотрите ранний пост.

Можно разделить Voc/Instr (vocalRemover), а затем в DAW аккуратно, как в "пластической хирургии", отредактировать вокал. Подробнее об этом в посте.

В начало поста ⬆
👍 12 👏 1
7 February 2026
AH
15:49
Почему музыка ИИ человеческая и новая без нового?

— название моей новой статьи, опубликованной на Хабре.

2025-й — знаковый для музыкальной индустрии: ИИ-артисты «подписывают» контракты, основатели «Грэмми» не против ИИ, лидеры (Suno/ Udio) становятся законопослушными, народу в целом всё-равно (большинство не различает ИИ-треки). Революция свершилась, о чём ещё спорить? Но … вот две реплики из форумов:

В ИИ-музыке нет души.
Музыкальный ИИ развивается неправильно.

Попытался осветить вопросы: природа музыки, выразительные средства, слабость западноевропейской теории музыки, особенности восприятия, новации в музыке, особенности ИИ генерации, смысл моделирования всего и вся.

Кратко:
▫️Артист далеко не всегда поёт с душой — «душа» на стороне слушателя;
▫️Только с ИИ «музыка из железки» стала человеческой — ранее исполнительские нюансы так не воспроизводились;
▫️Да, песни новые, но без музыкальных новаций — всё на базе уже придуманного, опробованного человеком;
▫️Число генераций из одной модели ограничено.
👍 12 3 👏 2
11 February 2026
AH
00:01
А с акцентом споёшь?

Тут приятель попросил песню супруге на Д.Р. с известным голосом. Я сказал, что с нашими певцами делать не буду, а с иностранными готов. Где? В Sonauto! Для меня Sonauto — это:

▫️Генерации с голосами известных* (см. L1, L2, L3);
▫️Похоже, скромный (и странный) DS для тренировки их модели;
▫️Ограниченная (до v3) длина трека;
▫️Странные генерации при явном несовпадении артиста со стилем;
▫️Косяки с русским языком.

* до сих пор не знаю, как к этому относиться. Вроде, нехорошо? ОК, только для себя. Однако, всегда же были пародисты, которые, обучившись на образцах, имитировали артистов, да ещё получали вознаграждение. Что, кто-то брал разрешение, чтобы кого-то пародировать? Если результат не оскорбляет персону, это, наверное, можно воспринимать как признание таланта.

Рассчитывая на узнаваемость, сделал товарищу с текстом на русском А.Челентано, Стинга, Э.Рамазотти. Примеры с изменённым текстом — ниже.
👍 4 🔥 2
00:02
Косяки в русском — минус, но акцент у иностранца — это нормально. Раньше у нас любили К.Гота, А.Герман, Т.Мяги, А.Веске — акцент придавал определённый шарм (может это маркетинг?). Когда китайцы, корейцы поют на русском, это ведь вызывает одобрение, улыбку? Правда, мне кажется, наши на чужих языках поют с меньшим акцентом 😀.

Вспомнив задачу с кальянным рэпом, решил в Suno протестировать генерацию с акцентом. Указания в стиле (пробовал польский, китайский, хинди) ничего явного не дали, поэтому очевидные* пути:

А. фонетическая орфография — "пишу, как слышу/ хочу";
Б. транслитерация — записать латиницей, т.е. искажение фонетики.

* в международной фонетической транскрипции текст этой песни (... ˈstrojɪʂ ˈkoznʲɪ , ˈruʂɪʂ ˈplanɨ ...) у меня не сработал — Suno сгенерил какой-то фольклор, потом (после его же анализа) транскрибировал в бессмысленные слоги. GoogleTranslate распознал как азербайджанский, хотя в транслите латиницей видит русский.

Для А. специального ресурса не нашёл. Спросил Алису — кривовато. А вот этот GPT выдает интереснее, но стоит проверять. Впрочем, Suno справляется и поёт почти правильно, т.ч. эффект акцента не достигается. Выход — делать вручную.

Для Б. ресурсов достаточно, вот с настройками (ya, ja, ia). Перевода только в "английский" мне не хватило, нашел интересный сайт, где пара десятков языков. Пробовал:

Στροισ κοζνι, ρουσισ πλανι — греческий;
Sztrois kozni, rusis plani — венгерский;
Stroisz kozni, ruszysz płany — польский;
Stroiš kozni, rušiš plany — словацкий;
ステロイシャ コゼニ, ルシャイシャ ペルアンウイ — японский.

Результаты интереснее, чем с "английским", а с "японским" не вышло — похоже, пытался спеть на японском 🥲. Понятно, что в разных системах разные языковые модели, и результаты отличаются. Примеры ниже.

********
Вокал в Suno часто характеризуют как стерильный и легко узнаваемый. Генерация с акцентом, несомненно, добавляет голосу индивидуальности, а в сочетании с определённым стилем и тематикой может пригодиться в создании ИИ-артиста.

В начало поста ⬆️
🔥 7 1
15 February 2026
AH
00:01
Они растут как грибы!

Понемногу теряю настрой смотреть все сервисы по теме муз. ИИ — они множатся, как... Делюсь очередным "прозвоном" (не уверен, что всё заметил). Большинство "наших" — перепродажа Suno. Всё как в общепите: есть один комбинат, выдающий оптом по заказу, есть дилеры. Каждый имеет доступ к полному меню (версии, опции) и решает:

▫️как оформлять витрину (сайт/ бот);
▫️что клиент может заказать;
▫️какие цены, скидки.

Полная свобода :

▫️Кто-то честно пишет "Suno", др. — "наш генератор".
▫️Одни указывают версию (v3.5 ... v5), др. — "Улучшенная", "Устаревшая" или свои (v2.6, v3.2).
▫️Где-то лучше UI, например, задание Style ч/з имя артиста или атмосферу ("Вечерний Релакс").
▫️По-разному оформляют и хранят генерации: где-то можно назвать, где-то просто код; одни прописывают теги (стиль, например), др. — нет; у одних только mp3, др. отдают и wav.
▫️Одни открыты (ИП, оферта, реквизиты, тел., email), др. — анонимы.

У многих есть "сопутствующие товары": auto-Lyrics, split, stems, видео и др.
🔥 3 1 👏 1 😁 1
00:01
Привожу 10 ресурсов (везде оплата в руб.) с указанием функций и цен, но без 100% гарантии — мог что-то упустить, плюс сервисы обновляются. Сокращения:

AU — Audio Upload
Cvr — Cover
Ext — Extend
PRS — Persona
rmx — Remix
Prm — параметры (Weirdness, Style / Audio influence)
МП — минимальный платёж
ЦТ — цена трека (при МП)

Сайты

aisuno : v4.5+, 5, AU, Cvr, PRS, Prm, хороший UI, mp3, wav, МП — 350₽ (84кр), ЦТ — 25₽

gptunnel : v3.5, 4, 4.5, 4.5+, 5, (и Mureka!), mp3, МП — 50₽ (300кр), ЦТ — Suno 12₽ , Mureka 9₽

math-ai : v4, 4.5, 5, шаблоны Styles ч/з атмосферу, простой UI, mp3, МП — 30₽ (20кр), ЦТ — 13,5₽

songly-gift : "стандартное / высокое качество", AU, список и шаблоны Styles (ч/з атмосферу, Ru), mp3, МП — 140₽ (120кр), ЦТ — 24,5₽

veosuno : v3.5, 4, 4.5, 4.5+, 4.5all, 5, AU, Ext, rmx, Prm, шаблоны Styles ч/з артиста, mp3, wav, МП — 50₽, ЦТ — 9,5₽

yolly-ai : v3.5, 4.5+, 5, AU, Ext, mp3, МП — 900₽ (300кр), ЦТ — 15₽

твойхит-рф : "устаревшая, ... новейшая", список Styles (Ru), простой UI, mp3, МП — 1₽ (за 1 генерацию 24₽), ЦТ — 49₽

Телеграм-боты

@bro_hit_bot Бро.Хит : v?, mp3, МП — 499₽ (20кр), ЦТ — 250₽. (>881K польз./мес.)

@easysongbot Сонграйтер : v?, AU, Cvr, Ext, mp3, МП — 490₽ (20кр), ЦТ — 25₽. (>150K польз./мес.)

@pesnyaAibot ПесняAi : v?, mp3, МП — 199₽ (6кр), ЦТ — 33₽. (>29K польз./мес.)

-------------------
В целом, на мой взгляд, хорошая тенденция. Инициатива предпринимателей даёт доступ широкому кругу пользователей. Да, цена трека выходит дороже, чем при работе в Suno напрямую (~1300₽/2500кр, ЦТ — 2,6₽), но иногда с этими сервисами удобнее. Я, например, протестил некоторые функции. Снова платный себе не делаю — затягивает 😕, а я не разобрал ещё треки, сгенерённые 5 мес. назад (тогда я истратил все кредиты за 6 дней) .

В начало поста ⬆️
👍 7 🔥 5
19 February 2026
AH
00:04
Suno: Persona — это ... ?

Вопрос в связи с генерацией со "своим голосом". Когда Persona только появилась, слышал, что не очень похоже. Сам потестил на днях.

Комментарий Suno о Persona: "... сохранить суть песни — её вокал, стиль и т. д., и использовать её для новых песен". Логично было бы загрузить образец и сделать из него персону, однако: "Создание персоны из Audio Upload недоступны в данный момент". ОК, пробую в v5:

▫️гружу референс-трек (DS);
▫️делаю кавер (текст тот же) с парам. 00,00,80 (Weirdness, Style / Audio influence) — т.е. с макс. влиянием DS;
▫️из кавера делаю Persona;
▫️генерю (новый текст) с Persona (Style пустой или song).

Взял известные голоса (Sonauto!) и свой. На каждом этапе брал трек, где голос меньше изменился. Однако, тембр перестаёт быть узнаваемым и становится "общим" — каждая копия* дальше от оригинала 🥲. Т.ч. лучше прямо из DS.

Ниже примеры, в каждом: DS → Cover → NewSong (по 30 сек.).
00:05
* Генерация Sonauto — это ведь тоже копия, а не оригинал. Точнее, имитация из модели, обученной на произведениях артиста, очень к нему близкая и хорошо узнаваемая. Это способ обойти проверку в Suno: система не может знать несуществующую песню — ни мелодию, ни текст 😀.

Т.ч. генерация со "своим голосом" — это или Suno v3.5 (где качество невысоко), или RVC. Хотя я думаю, что где-то это должно появиться: технически это возможно, и спрос на функцию есть немалый.

Я сделал с Persona всего несколько генераций, может у кого-то получится лучше. Ещё делал Cover/ Extend из своих реч. и вок. DS на v4.5-all, где дефолтные параметры (50,50,25) изменить нельзя: тембр не сохраняется, а порой и другой гендер 🥲.

В начало поста ⬆️
👍 5
20 February 2026
AH
10:33
Что нового?

▪️Weights закрывается 🥲. Кто не успел забрать свои треки, модели — надо поторопиться. Для RVC полезно скачать Replay — последнюю версию и v6.2.0 (кот. тренирует модели).

▪️Tunee теперь предлагает разные модели: ACE-Step 1.5, HeartMuLa 3B, MiniMax 2.0/2.5, Mureka O2/7.5/7.6/8, Tempolor i3/4.5. Запустили тестирование Virtual Artist (не пробовал). А с кредитами у них часто криво — творческие ребята 😕.

▪️HeartMulaновый игрок с хорошей генерацией, открытый код — скорее всего можно запустить на своём ПК, организовать сервис. Не знаю, можно ли тренировать на своём DS и сделать свою модель.

▪️AI Song Markerинтегратор (Suno, ACE-step, Musicgen, DiffRhythm, Riffusion). Очень интересная опция (free) MP3 в MIDI. Протестил на паре треков — весьма прилично.

▪️Если Telegram таки ограничат, не знаю пока, где продолжить данный канал. В любом случае, буду что-то выкладывать на сайте.
👍 11 🔥 4