И птичку, и хрипы. Алтайские программисты выиграли миллион на создание новейшей программы по обработке аудио

июль 24, 2024

Студент АлтГУ Валентин Карев со своей командой выиграл миллион рублей от конкурса студенческих стартапов. Его проект направлен на создание онлайн-сервиса для нейросетевой обработки аудиозаписей, с помощью которого, например, можно будет убрать лишнее шипение на записи голоса. Чем этот проект будет отличаться от других подобных сайтов и на что там нужен миллион рублей — в материале altapress.ru.

Музыка.
Фото: ru.freepik.com, автор master1305.

«Студенческий стартап»— это программа, реализуемая Фондом содействия инновациям в рамках федерального проекта «Платформа университетского технологического предпринимательства». Ее цель — грантовая поддержка стартап-проектов обучающихся российских вузов.

Как это работает

Пользователи будущего сайта смогут использовать различные варианты рабочих моделей, которые позволяют работать с речью, вокалом и музыкой, такие как шумоочисткаи разделение аудио на несколько дорожек.

Микрофон. Запись
СС0

Функция шумоочистки, например, позволит обработать аудиозапись так, чтобы удалить лишние шумы — шум ветра, ненужные шорохи и др. — и тем самым улучшить ее качество.

Эта программа облегчит жизнь звукорежиссерам, монтажерам и другим техническим специалистам, занимающимся видеопроизводством.

«Говоря о функции шумоочистки, она может быть реализована по-разному. Наш принцип работы такой: человек загружает звукозапись на сайт, затем программа с этой записи читает спектрограмму и подает ее на нейросеть, которая определяет места, где, скорее всего, находятся шумы, и выдает очищенный звук», — рассказал Валентин Карев.

Валентин Карев. Победитель конкурса студенческих стартапов 2024.
vk.com/ictef74

На данный момент в команде проекта четыре человека. Есть те, кто занимается непосредственно программированием, есть отдельный человек для продвижения, а также свой дизайнер сайта.

«Чем нейросетевая обработка лучше классических методов, которыми пользуются многие в качестве плагина? Тем, что классические методы основываются на статистических данных, — объясняет собеседник. — И, например, с пением птички, которое отличается резким и быстрым всплеском в высокочастотной области, такие алгоритмы не смогут справится, а нейросетевые модели — могут».

Что не так с тем, что есть

Данным вопросом команда занимается уже довольно давно. За все то время, что молодые профессионалы находятся в сфере, они успели выявить несколько недостатков существующих подобных сервисов.

Музыка.
Фото: ru.freepik.com, автор freepik.

«Основной проблемой тех сервисов, которые есть сейчас, является скорость работы, — отметил собеседник. — Мы хотим сделать так, чтобы наш функционировал в режиме реального времени. И, возможно, даже выпустить его как плагин. Так программу можно будет встраивать в прямые трансляции».

Еще одна проблема существующих программ — не хватает русской локализации. Так, собеседник приводит в пример известный сервис AdobePodcast — если русскоязычная речь будет тихой или трудноразличимой, он может на выходе заменить некоторые слова или звуки на похожие по звучанию английские. Цель проекта алтайской команды — углубить знания программы для русскоязычной аудитории.

Проект создавался не с нуля. На данный момент уже готовы модели нейросети для программы очистки от шумов. Конечно, специалисты постоянно следят за мировыми трендами и улучшают свои разработки.

Девушка слушает музыку со смартфона.
Фото: freepik, автор kroshka__nastya.

Начался этот проект еще в то время, когда Валентин Карев, сейчас магистрант, учился на бакалавриате. Темой исследования в одной из его курсовых работ была верификация дикторов по тембру — то есть определение того, кто говорит. Это похоже на определение по лицу, только анализирует программа речь.

«В отличие от лица, речь довольно легко подделать, — рассказывает руководитель проекта. — К тому же, влияют на качество верификации как раз-таки внешние шумы. Поэтому, когда человек хочет войти в телефон или приложение с помощью этого метода, могут возникнуть трудности, если при этом он находится в шумном месте. Так что мы решили выбрать первым основным направлением именно шумоочистку».

Есть куда развиваться

Проблема качества шумоочистки зависит, объясняет Валентин Карев, еще и от того, как это качество вообще оценивать. Например, в той же верификации говорящего оценка очевидна — правильно определила программа человека или нет. Шумоочистка же и качество речи на выходе — вещи субъективные, зависят от слушающего, и при очистке от шумов используют разные методики.

Музыка — это универсальный язык, способный объединять людей.
Фото: ru.freepik.com, автор freepik.

Например, рассказывает собеседник, существуют международные исследования подобных программ, в которых люди оценивали полученную аудиозапись по трем критериям: насколько разборчива речь, насколько мало в ней лишних призвуков и общее качество. Такой аналитикой занимаются большие компании, такие как Amazon,Microsoft, или Сбербанк.

«На основе такого же сбора данных мы можем попробовать научить алгоритм предсказывать, что скажет человек, и уже на этой основе учить нашу нейросеть, — поделился Валентин Карев. — Может быть, шумов и не будет, но это не гарантирует качество самой речи. Как я уже упоминал, могут появиться английские призвуки в словах. Поэтому направлению еще есть куда развиваться».

Записи голоса для обучения нейросети будут использовать как открытые, так и собственные — будучи режиссером звукозаписи в АлтГУ, Валентин Карев уже собрал некоторую базу голосов студентов и коллег. В перспективе команда планирует нанимать профессиональных дикторов.

Микрофон.
unsplash.com

Чтобы диапазон работы программы был шире, нужно собирать не только обычную речь, но и вокал — для компьютерного алгоритма это разные вещи. На первом этапе проекта разработчики сконцентрировались на обработке речевых записей. Но впоследствии будут расширяться на вокал и музыку.

Сколько

Некоторые сервисы обработки аудио имеют ограничения по объему. Валентин Карев говорит, что пока точно неизвестно, придется ли вводить их на будущем сайте, — это будет зависеть от загруженности сервера.

Тут для разработчиков два выхода: вкладываться в оборудование или уменьшать объем принимаемых файлов. В основном все ищут золотую середину, чтобы и снизить затраты (оборудование может стоит как сотни тысяч, так и сотни миллионов), и не заставлять пользователей долго ждать в очереди.

Компьютер.
unsplash.com

Вопрос о цене для пользователей разработчики решили демократично:

«По условиям гранта ресурс должен быть платным. Однако мы сделаем так, чтобы было некоторое число бесплатных обработок в сутки. Если пользователь захочет отредактировать больше записей, нужно будет приобрести подписку», — рассказал Валентин Карев.

Куда пойдет миллион

Первым делом команде выдали только часть средств. Когда победители зарегистрируют юридическое лицо, они получат полную сумму на реализацию оставшейся части проекта. До этого момента ведут запись голосов для обучения нейросети и готовят дизайн сайта.

Графический дизайнер.
Источник: ru.freepik.com/автор/freepik

Следующим шагом станет закупка оборудования — в первую очередь, производительного компьютера. На это пойдет основная часть средств. Оставшиеся деньги направят на подготовку технической части — написание кода.