ЛЮДЬиЧЕЛОВЕКИ

Вся команда и замдекана факультета по воспитательной работе Екатерина Лозина

Команда факультета компьютерных технологий и информационной безопасности РГЭУ (РИНХ) с названием «ЛЮДЬиЧЕЛОВЕКИ» успешно выступила на хакатонах ЮФО и СКФО (проект «Цифровой прорыв. Сезон: Искусственный интеллект»), войдя благодаря своим разработкам в тройку лучших в лиге новичков в Сочи и став вторыми в Ставрополе. Эти четверо четверокурсников согласились рассказать автору этих строк о созданных ими IT-продуктах.


Но сначала о среде, в которой обитают эти творцы завтрашнего дня. По словам декана факультета Евгения Тищенко, всего команд, участвующих в хакатонах, 26. То есть, считайте, половина студентов факультета уже в курсе, что такое командная работа и проектная деятельность. Свои творческие мускулы ребята тренируют все время: так, в ближайшее время вуз в Центре истинных ценностей проведет свой хакатон — VII региональный RinHack, в котором примут участие не только студенты РГЭУ (РИНХ), но и приехавшие со всего юга России.

Обложка для видео

Выбранное название команды, в котором должны звучать только русские слова, ребята объясняют так: когда в ней была только одна девушка — Катя Павлова, мастер интерфейсов и графический дизайнер, она получила псевдоним «ЛЮДЬ», двое остальных ребят — лидер команды Герман Серчаев, отвечающий за серверную часть, и Иван Артемов, разработчик пользовательской части, — стали «ЧЕЛОВЕКАМИ». Присоединившейся к ним Айшат Юсуповой, ставшей проектным менеджером, «ника», правда, не досталось, но она не обижается.

Проблема, которую решали ребята своей разработкой, выступая в Сочи, заключалась в следующем: картинки для видео, помещаемые на RuTube (а он был одним из кейсодержателей), не всегда удачны. Ребята научили искусственный интеллект по контенту видео генерировать обложку.

— Мы взяли за основу обученную модель, — объясняет Герман, — с названием «Кандинский» (от Сбера, уточняет лидер команды). Через интерфейс человек загружает видео, которое передается на созданный сервер. Там оно анализируется и согласно контенту с помощью «Кандинского» генерируется картинка, отправляемая пользователю обратно. А он может попросить туда кое-что добавить, если она его полностью не удовлетворит.
Насколько это все актуально? «Мы проанализировали рынок и поняли, что задача актуальна: далеко не все „обложки к видео“ привлекательны», — рассказывает Герман.- Мы также обсуждали ситуацию с техническим директором RuTube, и он согласился, что такая проблема существует.
— Архитектуру нашего решения могут использовать и блогеры, — уточняет Катя Павлова, — которым тоже нужно оформлять свой контент.

Помолчи, Алиса

В Ставрополе команда решала другую задачу — автоматический перевод видео на другие языки при помощи искусственного интеллекта. В Яндекс-браузере есть автоматический переводчик при просмотре видео. Но есть и проблема: в этом браузере находится база готовых к использованию голосов. Одну из женских ролей озвучивает известная всем Алиса. Ее голос, по определению Кати Павловой, несколько искусственный. От этого восприятие контента страдает.

— Наше решение состояло из нескольких модулей. — объясняет Герман. — Мы брали аудиодорожку и распознавали с помощью нейронной сети количество спикеров. Такой подход называется диаризация (Speaker Diarization) — получение для каждого спикера своей аудидорожки. К каждой дорожке мы применяли новую модель c названием Faster Whisper, которая переводит звук в текст (модель пришлось немного дообучить, качество при этом распознавания улучшилось).

— Имея этот текст, мы использовали нейронную сеть (это наша разработка), — продолжает Герман, — которая переводит текст на другой язык. В нашей модели 13 языков, но у нас в распоряжении имеется и модель одной из социальных сетей, в базе которой перевод на 200 языков (NLLB-200-Distilled-600M). На основе имеющегося текста идет воспроизведение речи на нужном языке с помощью модели ХTTS_v2, которая берет за основу голос диктора.

Эта модель позволяет передать оригинальный голос и манеру разговора человека, создавая приятный для восприятия акцент. Если оказывается, что переведенный текст звучит дольше оригинального по времени, то сокращение идет не из-за ускорения аудиодорожки, а за счет сокращения пауз между словами.

По словам ребят, таким образом уже переведены около 50 роликов длинной до 15 минут. Во время хакатона через созданный продукт прогонялось видео, и так оценивалось, чей перевод лучше. Разработку команды высоко оценил директор отдела машинного обучения RuTube Арнольд Сааков. До первого места разработке ребят не хватило одной функции — синхронного тексту движения губ. Будем считать, смеется Герман, что это задача на будущее.

Планы на импортозамещающее будущее

Чем отличаются нынешние молодые созидатели, так тем, что с оптимизмом смотрят вперед. И не просто думают о будущем: они его создают своими руками. Так, сегодня они работают, используя средства выигранного гранта Фонда содействия инновациям. Проект называется «Корпоративный мессенджер на основе технологии блокчейн с криптографическим преобразованием данных». Это студенческий старт-ап стоимостью в 1 миллион рублей.

— 1 марта 2023 года вступил в силу закон, говорящий о том, что государственным организациям нельзя использовать иностранные мессенджеры для передачи персональных данных и финансовых сведений, — рассказывает Катя. — А летом было уточнение, что и Телеграм нельзя использовать для этих целей. И мы нашли решение проблемы. Для каждой организации будет создан свой блокчейн, доступ к которому извне получить нельзя.

— В нашем мессенджере, — подхватывает разговор Герман, — контент проходит несколько этапов шифрования. И если кто-то посторонний попытается его расшифровать, то даже с использованием мощного оборудования на это уйдут годы.

Блокчейн — это технология шифрования и хранения данных, которые распределены по множеству компьютеров, объединенных в общую сеть.

Ребята на базе этого стартапа зарегистрировали свое предприятие как юридическое лицо — ООО «ДЭВКОД». И сейчас они подают заявку на следующий грант. Суть проекта в том, что болезни растений — яровых, кукурузы, подсолнечника — порой забирают до 30 % урожая, если не распознать их на ранней стадии. Идея в том, чтобы эти болезни распознавали парящие над полями дроны. На вопрос: «Каким образом?», раздался дружный смех всей команды, поскольку это и есть то самое ноу-хау, которое составляет коммерческую тайну.

— Буквально вчера мы обучили нашу нейронную сеть, — все-таки приоткрывает завесу тайны Герман, — распознавать болезни кукурузы. Предстоит работа по определению каждой из них. Но начало уже положено.

Читайте также...

Яндекс.Метрика