февраль 15, 2023
Роскомнадзор объявил о запуске новой системы автоматического поиска запрещенного фото- и видеоконтента «Окулус». О том, зачем российским властям нужен искусственный интеллект для поиска незаконных материалов, и как будет работать новая система – в материале altapress.ru.
Интернет.
Pixabay.com
Роскомнадзор запустил систему автоматического поиска противоправного контента в изображениях и видеозаписях «Окулус». Об этом «Ведомости» со ссылкой на представителя Главного радиочастотного центра (ГРЧЦ) – именно эта подведомственная РКН организация стала заказчиком. Систему протестировали еще в декабре 2022 года и теперь она «выполняет возложенные задачи в полном объеме».
«Окулус» - это классификатор данных, который обрабатывает свыше 200 тыс. материалов в сутки. Его главная задача – выявление нарушений законов в изображениях и видеороликах. Он может распознавать сцены, действия, символы и тексты и фиксирует те, что указывают на экстремизм, продвижение наркотиков, «пропаганду ЛГБТ», призывы к «массовым незаконным мероприятиям» и суициду.
Система умеет анализировать страницы сайтов, а также профили и паблики в соцсетях. При этом непосредственно сбором данных «Окулус» не занимается.
Новый инструмент будут совершенствовать и далее. В ближайшие пару лет власти хотят добавить в систему новые классы и типы нарушений, а также функции «определения поз людей и их действий». Ее также научат выявлять противоправные элементы «на нескольких кадрах в видеофрагментах, в сложных рукописных текстах и рисованном контенте».
Впервые о разработке системы «Окулус» стало известно еще ода, когда ГРЧЦ опубликовал закупку на разработку техзадания для системы стоимостью 15 млн руб. В дальнейшем ГРЧЦ опубликовал и закупку непосредственно на саму разработку «Окулуса» – уже за 57,7 млн руб. В то же время общая стоимость комплекса решений, которые позволят эффективно находить и блокировать различные типы запрещенного контента, оценивается в сумму около 1,5 млрд рублей.
Создала «Окулус» IT-компания Execution RDC. В компании не стали комментировать разработку, сославшись на коммерческие отношения с заказчиком.
До запуска новой системы, сотрудники РКН искали запрещенный контент практически вручную. В среднем один оператор обрабатывал по 100 изображений и роликов в день. Новая система, в свою очередь, изучает более 200 тыс. единиц контента в сутки. Так, на одно изображение «Окулус» будет тратить около трех секунд.
Потребность в новом инструменте власти объясняют «лавинообразным потоком» нежелательных с точки зрения российских законов материалов, в том числе «фейков». В ГРЧЦ считают, что их нужно блокировать до того, как их «увидит весь интернет и особенно дети и молодежь».
По словам заказчиков разработки, особенно много в последнее время стало появляться запрещенных материалов, связанных с ходом СВО на Украине.
Так, в 2022 году по требованию Генпрокуратуры удалили или заблокировали свыше 100 тыс. интернет-ресурсов, которые содержат недостоверную информацию, в том числе о ходе СВО. В 2021 году таких материалов было около 7000, в 2020 году – порядка 1500, а в 2019-ом – всего несколько сотен.
Генеральный директор Лиги безопасного интернета Екатерина Мизулина запуск новой системы.
По ее словам, полученная «Окулусом» информация «не будет автоматически куда-либо отправляться, в том числе для возбуждения дел и внесения в реестр запрещенных сайтов». Анализировать результаты и принимать конечное решение должен будет все же человек, чтобы не допустить «ложного срабатывания».
«Конечно, после аналитики искусственного интеллекта очень важно делать и ручную выборку такой информации, проверять работу ИИ и уже работать с конкретными фактами», – заявила Мизулина.
Риски использования «Окулуса» связаны с тем, насколько корректно или некорректно проходит классификация изображений и видео и насколько корректно они будут в дальнейшем интерпретированы.
У систем искусственного интеллекта есть ряд ограничений и рисков. Так, возможно ложное срабатывание, когда тот или иной контент определяется как запрещенный, или же напротив, пропуск, когда система не замечает запрещенный контент. По словам экспертов, это будут риски не столько самого решения, сколько уже дальнейшей работы с полученными данными.