Компьютерные системы распознавания лиц уже работают достаточно хорошо и даже умеют различать эмоции. Но люди передают информацию не только лишь посредством лица, но и при помощи различных жестов и поз. Так что ученые из Института робототехники университета Карнеги — Меллон решили создать программу, которая с легкостью бы «читала» язык человеческих жестов и интерпретировала полученную информацию.
В своей разработке ученые задействовали 500 высокоточных видеокамер, установленных внутри огромного купола высотой в 2 этажа. Пять сотен камер (предоставленные исследователям Panoptic Studio) производят огромное количество информации, и даже при съемке одного кадра для анализа всей визуальной информации требуются значительные вычислительные ресурсы. При этом система должна провести одновременную оценку выражения лица, положения головы, туловища, ног и всех пальцев рук. Как рассказал лидер проекта Ясер Шейх, «Человек выражает свое состояние и эмоции при помощи выражения лица, движений и позы тела не хуже, чем своим голосом. Но компьютеры до последнего времени оставались «слепы» по отношению к этому языку нашего тела. Нам удалось «научить» искусственный интеллект тому, что мы умеем делать практически с самого рождения. Сейчас мы планируем улучшить ПО таким образом, чтобы для анализа системе хватало лишь одной камеры. При этом мы хотим усовершенствовать систему, чтобы она могла расшифровывать язык тела целой группы людей, взаимодействующих друг с другом».
Данные о новом методе расшифровки языка тела человека, а также его исходный код находятся сейчас в свободном доступе. Более детальную информацию о своей разработке ученые планируют представить на конференции Computer Vision and Pattern Recognition Conference (CVPR) 2017, которая будет проходить с 21 по 26 июля. Ну а самостоятельно ознакомиться с новинкой можно уже сейчас при помощи видеоролика, расположенного ниже.