Программный комплекс, который на основе интеллектуального анализа видео распознает жестовый язык людей с нарушениями слуха и преобразовывает его в текст, создали специалисты подведомственного Минобрнауки России Санкт-Петербургского федерального исследовательского центра (СПб ФИЦ) РАН. Приложение планируется использовать в медицинских учреждениях для повышения эффективности оказания врачебной помощи глухим пациентам.
Люди с нарушением слуха могут испытывать трудности при посещении различных государственных учреждений, торговых центров или больниц. Иногда глухим гражданам предоставляются сурдопереводчики, однако на практике их возможности недостаточны. Поэтому ученым важно развивать интеллектуальные системы эффективного автоматического машинного сурдоперевода, чтобы облегчить коммуникацию между глухими людьми и остальной частью общества.
«К нам обратились представители одной из организаций для реабилитации глухих людей с проблемой посещения больниц. Для того чтобы подробно объяснить свой недуг, глухие пациенты вынуждены брать с собой переводчиков, которых часто не хватает. Для решения этой задачи мы разработали программное обеспечение, которое распознает язык жестов и преобразует его в текст», — рассказывает старший научный сотрудник лаборатории речевых и многомодальных интерфейсов СПб ФИЦ РАН, кандидат технических наук Дмитрий Рюмин.
Для обучения нейросети ученые разработали уникальную базу данных жестов, которые используются глухими людьми при описании сфер, связанных с медициной и здоровьем. Она состоит из 85 жестовых высказываний, записанных 12 дикторами в пяти вариантах. При этом видеозаписи всех жестов снимаются с разных ракурсов, что повышает их информативность. Общая продолжительность всех видеозаписей составила около семи часов.
Программное обеспечение работает следующим образом: видеокамера фиксирует жесты пациента. После этого программа автоматически преобразует язык жестов в текст в режиме реального времени. Точность системы составляет более 90%.
Ученые выяснили, что одни и те же жестовые элементы могут значительно различаться в зависимости от возраста и пола пациента, поэтому система учитывает этот фактор для повышения точности интерпретации.
«Мы надеемся, что в перспективе наше приложение позволит упростить оказание медицинских услуг и для врачей, и для людей с ограниченными возможностями. Сейчас мы работаем над созданием удобного интерфейса для программы», — поясняет Дмитрий Рюмин.
Проект поддержан грантом Российского научного фонда (№ 21-71-00141). В исследовании, результаты которого опубликованы в одном из международных научных журналов, принимали участие представители Межрегионального центра реабилитации лиц с проблемами слуха города Павловска.