Делитесь своим опытом!
Технология разделения звука позволяет из целого набора разных звуков извлекать отдельные. Изначально считалось, что добиться этого невероятно сложно. Однако в 2013 году мы открыли для себя технологию ИИ от Sony, которая позволила нам значительно улучшить результаты. Более того, ее уже успешно использовали, например, для восстановления классических фильмов, устранения шума в смартфоне и исполнения караоке в реальном времени на платформах потоковой передачи музыки. Думаем, в будущем перечень сфер применения этой технологии станет еще больше.
Подробнее расскажут Юки Мицуфудзи (Yuki Mitsufuji) из нашего токийского центра исследований и разработок и Штефан Улих (Stefan Uhlich) из нашего штутгартского центра исследований и разработок.
Машина воспроизводит человеческие способности.
«Когда человек слушает выступление с множеством разнообразных звуков, он способен различить отдельные инструменты, или во время разговора сосредоточить внимание только на одном голосе, даже если вокруг толпа людей», — поясняет Юки. Используя компьютер, это было сложно сделать до применения ИИ. Он вспоминает: «Как некоторые говорили, это как смешать два вида сока, а затем извлечь один из них».
В образце ниже вы можете прослушать три примера того, как наша технология разделения звука применяется в сцене из фильма «Лоуренс Аравийский». На этом примере продемонстрировано, как можно извлечь диалог, а также различные синхронные шумы.
ИИ учит компьютеры разделять звуки.
В качестве примера возьмем гитару. У этого инструмента очень специфический звук или частота, которую нейронная сеть заучивает во время обучения.
«Во время обучения сеть обрабатывает большое количество музыки — нам и жизни не хватит, чтобы прослушать столько музыки, — вместе со звуком, который необходимо извлечь», — объясняет Штефан. Следовательно, независимо от того, сколько различных звуков смешано в записи, наша система ИИ сможет идентифицировать конкретные характеристики гитары и извлечь ее звук».
«Это как для нас распознать яблоко: если мы уже видели много яблок, то в любой следующий раз мы сможем его узнать, — говорит Юки. — По точно такому же принципу, с точки зрения механики и концепции, ИИ применяется к разделению звука».
Эта технология может практически повернуть время вспять.
С помощью технологии разделения звука с использованием ИИ мы можем вернуть к жизни старую песню, извлечь вокал или разделить звуки инструментов и сделать ремикс. А в киноиндустрии это открывает совершенно новые возможности для развлечений с эффектом погружения.
«Чтобы погрузить зрителей в объемное звуковое поле, необходимо подавать звуки под разным углом и воссоздать трехмерное звуковое пространство», — поясняет Штефан. — Однако в классических фильмах диалоги и звуковые эффекты записаны на одной дорожке, что ограничивало наши возможности в извлечении звука и создании объемного звукового поля. Нам стало интересно, можно ли применить нашу технологию к фильмам, и, изучив библиотеку звуковых эффектов (синхронных шумов), наша система ИИ смогла успешно извлечь из оригинала отдельные звуковые эффекты».
В этом можно убедиться, просмотрев видео «Лоуренс Аравийский» выше.
Технологию разделения звука можно применять и в областях, которые менее очевидны, но, которые, безусловно, на нее полагаются.
В качестве примера Юки приводит собаку-робота AIBO от Sony. «aibo может реагировать на голоса людей и общаться. Однако, если aibo будет обрабатывать просто все окружающие звуки, то она станет реагировать и на собственные механические звуки или шум ветра. Используя ИИ для извлечения человеческих голосов и удаления всех остальных фоновых звуков, мы смогли улучшить ее возможности распознавания голоса».
Аналогичные методы мы применили и к другим нашим продуктам. Например, пользователи смартфона Xperia™ четко слышат человеческий голос без шума ветра, а наша технология «режим караоке», разработанная для приложения потоковой передачи музыки, в режиме реального времени удаляет вокал, чтобы объединить голос пользователя с источником звука.
Смотрим в будущее.
Поскольку Sony PSL и Sony Music Solutions начинают предлагать эту технологию и другим компаниям, Юки с нетерпением ждет будущего. «Мы надеемся, что наша технология станет чем-то вроде машины времени, которая позволит музыкантам из прошлого и настоящего работать вместе».
Что касается Штефана, он надеется увидеть дальнейшее развитие технологии: «С технической точки зрения, мы увидим переход к универсальной технологии разделения источников, когда неизвестно не только количество, но и категории источников. Такой сценарий признан трудно исполнимым, но интересным. Он позволит еще больше увеличить количество вариантов коммерческого использования технологии».
Нам не терпится увидеть, какие новые просторы нам поможет изучить технология разделения звуков с использованием ИИ. В какой сфере вы хотели бы увидеть ее применение?
Эта статья адаптирована на основе материала на веб-сайте Sony.net. Исходную статью см. здесь: https://www.sony.net/SonyInfo/technology/stories/AI_Sound_Separation/
Чтобы добавить комментарий, необходимо зарегистрироваться. Если вы уже зарегистрированы, войдите в систему. В противном случае вам необходимо зарегистрироваться.