Инженеры Пенсильванского университета разработали SmartDJ — редактор на основе искусственного интеллекта, позволяющий пользователям изменять иммерсивные звуковые среды с помощью простых инструкций на понятном языке. Он может найти применение в виртуальной реальности, дополненной
реальности, играх и звуковом дизайне. Вместо того чтобы требовать от пользователей указания отдельных параметров редактирования, SmartDJ может реагировать на запросы высокого уровня, например, «сделать так, чтобы это звучало как оживленный офис», а затем планировать и выполнять необходимые шаги для достижения этого результата. Система устраняет два основных недостатка более ранних инструментов редактирования аудио
с использованием ИИ. Во-первых, большинство предыдущих систем лучше всего работали с жесткими, шаблонными командами, требуя от пользователей идентификации звуков для добавления или удаления. Во-вторых, эти инструменты, как правило, работали с одноканальным или «моно» аудио, теряя пространственные нюансы, необходимые для полного погружения в звук. SmartDJ, напротив, способен интерпретировать инструкции
высокого уровня и предназначен для стереофонического звука, что позволяет ему вносить изменения, которые лучше сохраняют или изменяют пространственную структуру сцены. Более того, система является интерпретируемой: пользователи могут видеть каждый
шаг, который предпринимает SmartDJ. Например, запрос типа «сделайте так, чтобы это звучало как оживленный офис» может привести к тому, что SmartDJ сгенерирует инструкцию типа «Добавьте звук звонка телефона справа на 3 дБ». Затем пользователи могут изменять, удалять или добавлять отдельные шаги, обеспечивая больший контроль над конечным результатом. «С помощью SmartDJ пользователи могут описать желаемый результат на естественном языке, а система сама определит, как этого
добиться», — говорит Минмин Чжао, доцент кафедры компьютерных и информационных наук (CIS). «Мы показываем, что ИИ может помочь людям редактировать аудио интуитивно понятным способом, используя простой язык». Чжао является ведущим автором исследования, представленного на этой неделе на Международной конференции по изучению представлений ( ICLR 2026 ), проходившей в Рио-де-Жанейро. Статья также доступна на сервере
препринтов arXiv. Сочетание языковых и диффузионных моделей Одна из главных проблем редактирования аудио с помощью ИИ заключается в том, что понимание запроса пользователя и генерация звуков обычно обрабатываются различными типами систем ИИ. «Мы используем языковые
модели для работы с текстом», — говорит Цзитун Лан, аспирант кафедры электротехники и системотехники (ESE) и первый автор исследования. «Кроме того, мы используем модели диффузии для редактирования звуков». Разница сводится к тому, чему каждая система была обучена. Языковые модели — та же технология, которая лежит в основе чат-ботов
— изучают закономерности в словах, помогая им интерпретировать смысл, который вкладывают пользователи, и генерировать текст в ответ. Диффузионные модели, напротив, предназначены для создания медиаконтента путем постепенного преобразования шума в связный сигнал. Чтобы преодолеть этот разрыв,
команда внедрила в процесс редактирования аудиоязыковую модель (ALM). Обученная как на звуке, так и на тексте, ALM анализирует исходный аудиоматериал вместе с запросом пользователя, а затем разбивает этот запрос на последовательность более мелких действий редактирования, таких как добавление, удаление или изменение положения звука. Затем модель диффузии выполняет эти действия шаг за шагом, позволяя
SmartDJ как интерпретировать язык, так и редактировать аудио. По сути, языковая модель выступает в роли продюсера, определяя, как должно меняться звуковое оформление, в то время как модель диффузии действует как студийный музыкант, воплощая эти указания в аудио. «Языковая модель задает системе направление», — говорит Идуо Хао, аспирант CIS и соавтор
исследования. «Модель диффузии выполняет эти указания». Обучение SmartDJ Чтобы научиться преобразовывать общие запросы пользователей в пошаговые аудиоредактирования, SmartDJ потребовались примеры, которые объединяли бы сразу три вещи: общую инструкцию, последовательность действий по редактированию, необходимых для ее выполнения, и аудио до и после каждого изменения. К сожалению,
таких обучающих данных не существовало. «Для решения этой проблемы требовался совершенно необычный набор данных, — говорит Лан. — Он должен был одновременно отражать цель, этапы и результат». Поэтому команда разработала его самостоятельно. Опираясь на общедоступные звуковые библиотеки, исследователи создали конвейер, который использовал большую языковую модель для генерации высокоуровневых подсказок для редактирования и промежуточных шагов, необходимых для их выполнения, в то время
как обработка аудиосигнала производила соответствующие отредактированные выходные данные. «Для того чтобы это работало, мы не могли просто показать модели входные и выходные данные, — говорит Хао. — Мы должны были показать ей цепочку рассуждений между ними». К более доступному
редактированию аудио Для проверки SmartDJ исследователи сравнили его с более ранними системами редактирования звука и обнаружили, что он выдает более реалистичные и лучше согласованные результаты. Как в количественных оценках, так и в исследованиях с участием людей, SmartDJ превзошел предыдущие методы по таким показателям, как
качество звука, соответствие результатов инструкциям пользователя и реалистичность размещения звуков в пространстве. Исследователи видят потенциальные области применения в виртуальной реальности, дополненной реальности, играх, звуковом дизайне, виртуальных конференциях и других формах интерактивных медиа, где пользователи могут захотеть изменить звуковую среду, не указывая вручную каждое отдельное изменение. В конечном итоге, цель исследователей — сделать редактирование аудио более
доступным, позволив любому человеку с творческим видением редактировать звуковые ландшафты. «Для других медиа, таких как текст и изображения, пользователи уже могут использовать ИИ для выполнения запросов на высокоуровневое редактирование», — говорит Чжао. «SmartDJ открывает аналогичные возможности для аудио, упрощая для большего числа людей воплощение своих идей в жизнь».
Сообщает android-robot.com
Новость из рубрики: Технологии и Hi-Tech
Поделиться новостью:
Топ Новости Недели
- Высокозащищенные ноутбуки нового поколения для экстремальной эксплуатации, промышленной автоматизации, военных задач, полевых условий и безопасной мобильной работы в любой среде...
- Современный комплексный подход к лечению зубов без боли, страха и психологического дискомфорта: инновационные технологии стоматологии, цифровая диагностика и комфорт пациента нового поколения...
- Обезвреживание медицинских отходов класса «Г» в Москве...
- Как начать доставку для бизнеса с СДЭК, выстроить надежную логистику, автоматизировать отправку заказов, повысить уровень клиентского сервиса и эффективно масштабировать современный интернет-магазин или коммерческий проект в условиях быстрорастущей электр...
- Как выбрать идеальный ресторан для свадьбы и не допустить ошибок: важнейшие критерии выбора банкетной площадки, нюансы организации торжества, секреты комфортного свадебного вечера и создание атмосферы, которая запомнится гостям на всю жизнь...
- Как грамотно подобрать идеальное соотношение диска и автомобильной резины: влияние ширины колес, профиля шин, параметров посадки и сезонных особенностей эксплуатации автомобиля на безопасность движения, комфорт управления и долговечность подвески...
- Современные изделия и комплексные технологии для проведения санации органов дыхания, профилактики вторичных инфекций, защиты пациентов на искусственной вентиляции легких и эффективного предотвращения вентилятор-ассоциированной пневмонии как одного из самы...
- Термомаскировка будущего: инновационные накидки против тепловизоров, принципы работы, технологии и перспективы развития...
- Жилет с логотипом как инструмент визуальной идентичности, маркетинга и корпоративной культуры: от выбора материалов и дизайна до стратегического использования в бизнесе, рекламе и повседневной практике...
- Феномен автомобиля «Тенет»: как концептуальная машина нового поколения объединяет инновационные технологии, интеллектуальные системы и философию движения, формируя представление о транспорте будущего и меняя подход к мобильности...
- Интеллектуальные системы зрения: проектирование, разработка и внедрение компьютерного анализа визуальных данных...
- Глубокий разбор и практическое руководство: как грамотно подготовить документы, избежать ошибок и успешно пройти процедуру участия в аукционе на право пользования недрами в условиях современной правовой и экономической среды...
- Полный гид по стилям кухонь: как выбрать идеальный дизайн, сочетать эстетику и функциональность и создать гармоничное пространство для жизни и кулинарии...
- Открытый прикус и дикция...
- Как начать доставку для бизнеса с СДЭК, выстроить надежную логистику, автоматизировать отправку заказов, повысить уровень клиентского сервиса и эффективно масштабировать современный интернет-магазин или коммерческий проект...
- Відео-дошки оголошень в Україні як новий формат онлайн-комунікації: розвиток цифрових платформ, маркетингові можливості та майбутнє інтерактивних сервісів...
- Визуальная и функциональная природа контекстной рекламы: как она выглядит, где размещается, как привлекает внимание и формирует современную цифровую экосистему маркетинга...
- Почему профессиональный вывод из запоя становится ключевым этапом лечения: преимущества медицинской помощи, безопасная детоксикация и путь к полноценному восстановлению организма...
- Почему вызов нарколога на дом становится оптимальным решением: преимущества медицинской помощи, этапы лечения, восстановление организма и профилактика зависимости в современных условиях...
- Полное руководство по выводу из запоя в стационаре: этапы медицинской детоксикации, круглосуточное наблюдение, восстановление организма и долгосрочная реабилитация пациента...
01:00, 06 Июн МАКС удалили из App Store, но он нужен для работы. Что делать пользователям iPhone Вечером 3 июня мессенджер MAX пропал из российского App Store. Для кого-то это новость из серии «ну и бог с ним». Но если на MAX завязана рабочая пер...
04:00, 30 Май Путин: Ситуация на поле боя позволяет говорить о возможном скором завершении СВО Слова о возможности скорого завершения боевых действий в зоне СВО основаны на анализе ситуации на поле боя, пояснил президент России Владимир Путин н...
03:00, 08 Май 5 простых и удобных электрических мини-пил для сада Мини-пила — своеобразная альтернатива ручной ножовке. Ей тоже удобно работать одной рукой, а тонкая шина позволит подобраться к нужной ветке на дерев...
19:00, 28 Май Дешевая добавка позволяет увеличить срок службы натрий-ионных аккумуляторов почти в 10 раз 2000 часов без сбоев и 95% первоначальной емкости после 500 циклов заряда/разрядаУчёные из Национального университета Сингапура разработали более без...
19:00, 06 Май Эксперт: Уязвимость Copy Fail не позволяет полностью захватить российскую Astra Linux Директор департамента анализа безопасности «Группы Астра» Владимир Тележников рассказал, что обнаруженная в ядре Linux критическая уязвимость Copy Fa...
15:00, 10 Июн Как посмотреть расход трафика: несколько простых способов В наше время безлимитные тарифы почти не встречаются, а большинству пользователей доступен лишь относительно скромный объем трафика, при превышении к...
17:00, 22 Май Как конвертировать GPT в MBR и наоборот: несколько простых способов для Windows Основная загрузочная запись (MBR) – это наследие давно минувших дней, когда объем потребительских накопителей не превышал 2 Тбайт, а в самих компьюте...
08:00, 17 Июн ИИ-пересказ писем в Gmail доступен всем пользователям. Как запретить Gemini читать электронную почту? Отключение также лишит Gemini доступа к другим приложениям Workspace, включая «Google Диск» и «Задачи»Функция Gemini, которая автоматически создаёт к...
06:00, 04 Июн Привычные пароли уходят в прошлое: системы начали блокировать доступ пользователям старых гаджетов Банковский сектор приступает к масштабной чистке протоколов безопасности. С июня 2026 года Сбербанк радикально пересматривает правила авторизации в с...
11:00, 05 Май Samsung представила суперэкран для смартфона будущего: он позволяет определять артериальное давление по касанию пальца Samsung встроила в экран органические фотодиодыSamsung представила на выставке SID в США сразу две перспективные разработки для дисплеев будущего. Пе...
00:00, 26 Апр Илон Маск запустил мессенджер XChat с искусственным интеллектом. Российским пользователям пока не повезло Компания X Илона Маска официально выпустила новый мессенджер XChat для iPhone. Приложение позиционируется как безопасная альтернатива встроенным личн...
04:00, 19 Май Что я делаю, когда мой MacBook начинает тормозить: 4 простых совета, как ускорить Mac Работали вы себе работали, а тут заметили, что ваш Мак стал заметно дольше открывать приложения, греется без видимой причины и подтормаживает даже в ...
17:00, 13 Май Сколько слов в русском языке: в словаре 200 тысяч, но в жизни их больше Даже академики знают только примерное количество русских слов В детстве вам наверняка было интересно, сколько всего слов в русском языке. Тысяча? Дес...
19:00, 03 Июн Дочь Дмитрия Маликова показала фигуру после слов отца о её худобе Стеша Маликова, похудение которой обсуждают уже не только пользователи, но и её отец Дмитрий Маликов, снова показала фигуру в соцсетях.На снимке 26-л...
18:00, 21 Апр Некоторые люди слышат цвета и чувствуют вкус слов: научное объяснение Умение чувствовать запах музыки называется синестезией Представьте, что каждая буква алфавита для вас окрашена в определенный цвет, музыка рисует пер...
21:00, 08 Май "Сама стала той, с кем изменили". Наталью Подольскую раскритиковали после её слов об изменах в браке 43-летную певицу Наталью Подольскую осудили за слова об изменах в браке. Подольская заявила, что это можно простить, а ей в ответ в соцсетях припомни...
03:00, 25 Апр "Он не выступает от имени Великобритании". Дональд Трамп ответил принцу Гарри после его слов об Украине Дональд Трамп прокомментировал слова принца Гарри, который вчера прибыл в Киев и призвал на форуме президента США помочь Украине, чтобы закончить вое...
18:00, 15 Май Почему я не увидела этого раньше: топ-5 простых идей для сада и огорода своими руками, которые помогут преобразить дачный участок Живая беседка из ивы, клумба из старой тачки и каменный коврик у входа. 5 идей, которые превратят участок в райский уголок без больших затрат. 1. Жив...
07:00, 11 Июн Маск пишет историю: около 4000 простых сотрудников SpaceX станут миллионерами, состояние 400 человек превысит 100 млн долларов после исторического IPO Торги начнутся 12 июняSpaceX готовится к историческому выходу на биржу, который должен сделать более 4 000 нынешних и бывших сотрудников долларовыми ...
08:00, 09 Май "Летают беспилотники, гибнут люди. Так не должно быть". "Отменённый" из-за своих слов об СВО Дмитрий Нагиев записал видео ко Дню Победы Дмитрий Нагиев, которого, по слухам, сейчас "отменяют" в России за противоречивые высказывания об СВО, записал очередное видео на фоне берёз накануне...
12:00, 15 Май Ассоциация судей Испании требует начать против Переса дисциплинарное разбирательство из-за слов президента «Реала» о систематической коррупции и краже титулов Ассоциация судей Испании (AESAF) направила запрос в Королевскую испанскую футбольную федерацию (RFEF) о возбуждении дисциплинарного дела в отношении ...
17:00, 10 Июн Как заселиться в гостиницу с помощью MAX? Национальный мессенджер с недавнего времени позволяет проходить регистрацию в отелях с помощью «Цифрового ID». Теперь гостям больше не нужно заполнят...
18:00, 19 Апр Евсеев сказал 30 слов по ходу флэш-интервью после матча с «Зенитом»: «Очень много вопросов». Ранее тренера «Махачкалы» дважды штрафовали на 100 тысяч рублей за мат Главный тренер махачкалинского « Динамо » Вадим Евсеев кратко высказался после матча 25-го тура РПЛ с « Зенитом ». Ранее 50-летний специалист был два...
01:00, 19 Апр В России ускорили рекомендательные системы с помощью ИИ Исследователи Центра практического искусственного интеллекта Сбербанка вместе с коллегами из AIRI, Университета Иннополис и ИТМО нашли способ перенос...
07:00, 24 Апр В Новосибирске изучили древние черепа с помощью КТ В пресс-службе Новосибирского госуниверситета (НГУ) сообщили, что специалисты вуза провели компьютерную томографию (КТ) четырех черепов из археологич...
13:00, 20 Май Яндекс «прокачал» поиск по архивам с помощью Alice AI VLM В среднем точность составила 90,5%, достигая 92,7% для записей о рождении, 89,7% — для свадеб и 87,2% — для смертейКоманда Яндекса улучшила функцию п...
17:00, 12 Июн В СГУ научились уничтожать гной в животе с помощью лазера Врачи и учёные из саратовских ВУЗов — СГУ и СМГУ — разработали технологию лечения гнойных мешков в животе без скальпеля и без антибиотиков. Специалис...
07:00, 02 Июн Без голодовки и спортзала: как сбросить вес к лету с помощью обычной еды Как похудеть к лету без жесткой диеты, ежедневных тренировок и препаратов для снижения веса? Британский нутрициолог Ким Пирсон в беседе с Daily Mail ...
22:00, 02 Май Как сделать презентацию с помощью нейросети: лучшие сервисы Сделать презентацию с помощью нейросети можно за пару минут — без навыков дизайна и без часов ручной работы в PowerPoint. Достаточно описать тему, и ...
16:00, 18 Апр Как создать песню с помощью нейросети — бесплатно и за 5 минут Искусственный интеллект пишет стихи, рисует картины и придумывает сценарии — теперь очередь дошла до музыки. Сегодня любой желающий найдет, как сдела...
06:00, 30 Апр Учёные ТПУ ускорили переработку угля на 10% с помощью опилок и масла Исследователи Томского политехнического университета с коллегами из Китая нашли способ повысить эффективность низкосортных углей. Добавка опилок и от...
17:00, 09 Июн Создан бесконтактный манипулятор, удерживающий предметы с помощью ультразвуковых полей В Шанхайском университете транспорта 8 июня 2026 года продемонстрирован промышленный манипулятор, способный захватывать, удерживать и перемещать хруп...
12:00, 22 Апр Более 50 тыс. нарушений чистоты устранили в Подмосковье с помощью ИИ с начала года "ИИ-контроль за чистотой во дворах ведется в Подмосковье с 2023 года. Задействовано около 80 тыс. камер, оборудованных искусственным интеллектом. За ...
05:00, 26 Апр Авито в 1,6 раз повысил эффективность социальных механик с помощью искусственного интеллекта Технологическая платформа Авито первой в России применила комбинацию генеративного ИИ и рекомендательных алгоритмов для автоматизации социальных и бл...
03:00, 30 Апр Челябинский тракторный завод ускорил выпуск техники на 60% с помощью роботов В Челябинске на предприятии «ДСТ-Урал» подвели итоги масштабного этапа роботизации. Внедрение 24 промышленных роботов-сварщиков позволило ускорить пр...
06:00, 30 Апр Астероид Апофис исследуют с помощью российской обсерватории «Спектр-РГ» в 2029 году Учёные Самарского университета и Института космических исследований РАН предложили использовать орбитальную обсерваторию «Спектр-РГ» для изучения аст...
09:00, 06 Июн Как создать видео из текста с помощью цифрового аватара: используем нейросеть HeyGen В этой статье мы расскажем и покажем, как из обычного текста сделать классное видео с аватаром — то есть виртуальным человеком, который будет этот те...
21:00, 09 Май Дети научились обходить проверки возраста в интернете с помощью нарисованных усов Исследование показало, что многие системы принимают косметический карандаш и грим за признаки взрослого человекаДети начали массово обходить системы ...
20:00, 31 Май Ирина Горбачёва снялась обнажённой и высказалась о похудении с помощью аналога "Оземпика" 38-летняя Ирина Горбачёва опубликовала в своём инстаграме* серию фото, на которых предстала полностью обнажённой. Снимки актриса, которая вот уже дол...
06:00, 26 Апр Как сделать презентацию с помощью нейросети — подборка хороших сервисов и простой гайд Раньше сделать нормальную презентацию значило убить вечер: придумать структуру, набрать текст, найти картинки, не облажаться с оформлением. Сейчас вс...
11:00, 15 Май Жительница Находки приговорена к двум годам колонии-поселения за ДТП со скорой помощью Дорожная беспечность имеет высокую цену. В Находке жительница края спровоцировала столкновение со скорой помощью, что привело к гибели человека. Суде...
04:00, 18 Май Как сделать песню с помощью нейросети: пошаговая инструкция по созданию готового трека На дворе 2026 год, и на сегодняшний день ИИ научил писать тех, кто этого никогда не умел, а рисовать — даже тех, кто в жизни не держал в руках кисть ...
03:00, 30 Апр Конец эпохи кадрового голода: почему российские компании считают, что перехитрили рынок с помощью ИИ Российский корпоративный сектор проходит этап жесткой трансформации производственных процессов. Топ-менеджмент компаний переосмысливает текущие огран...
04:00, 09 Май СССР пытался подчинить природу с помощью лесов: зелёная стена дала стране изобилие продуктов Сталинский план преобразования природы стал ответом на катастрофическую засуху 1946 года, которая принесла стране голод и разруху. Советское руководс...