В YouTube з'явилася функція, яка автоматично підписує в відеороликах навколишні звуки - оплески, музику і сміх. Це допоможе краще розуміти те, що відбувається на екрані тим, у кого є проблеми зі слухом.
Можливості системи поки обмежені трьома перерахованими категоріями. YouTube використовує машинне навчання, щоб визначати звуки і показувати їх текстові описи.
Компанія розробила нейронну мережу і натренувала її, використавши тисячі годин відео. За словами розробників, найскладніше було навчити систему відрізняти елементи, які звучать одночасно - наприклад, сміх і оплески.
В результаті опису навколишніх звуків стали відображатися разом зі стандартними автоматичними субтитрами. Як приклад роботи технології нижче представлено виступ з телепроекту «В Америці є таланти».
Команда розробників YouTube визнає, що підписи примітивні. Але тепер технологію буде простіше вдосконалити, тому що основа, тобто нейронна мережа, вже створена. У майбутньому компанія хоче додати підтримку таких звуків, як гавкіт, стукіт і дзвін. Для цього штучного інтелекту доведеться навчитися розрізняти джерела звуків: дзвін, наприклад, можуть видавати телефон, будильник або дверний дзвінок.
Це варто зусиль розробників:
вони провели дослідження, дві третини учасників якого сказали, що з підписами відео дивитися комфортніше.
Автоматичні субтитри з'явилися в YouTube в листопаді 2009 року. Алгоритми компанії поки далекі від ідеалу і їх доводиться допрацьовувати - через неправильне вимови, діалектів, акцентів і фонових шумів. Проте, функція дуже популярна: більше 15 мільйонів роликів з автоматичними субтитрами люди дивляться кожен день, а всього таких відео в сервісі - понад мільярд.