YouTube навчився автоматично підписувати навколишні звуки в відео

28 березня 2017, 08:16 | Технології

фото з InternetUA

Розмір тексту:

В YouTube з'явилася функція, яка автоматично підписує в відеороликах навколишні звуки - оплески, музику і сміх. Це допоможе краще розуміти те, що відбувається на екрані тим, у кого є проблеми зі слухом.

Можливості системи поки обмежені трьома перерахованими категоріями. YouTube використовує машинне навчання, щоб визначати звуки і показувати їх текстові описи.

Компанія розробила нейронну мережу і натренувала її, використавши тисячі годин відео. За словами розробників, найскладніше було навчити систему відрізняти елементи, які звучать одночасно - наприклад, сміх і оплески.

В результаті опису навколишніх звуків стали відображатися разом зі стандартними автоматичними субтитрами. Як приклад роботи технології нижче представлено виступ з телепроекту «В Америці є таланти».

Команда розробників YouTube визнає, що підписи примітивні. Але тепер технологію буде простіше вдосконалити, тому що основа, тобто нейронна мережа, вже створена. У майбутньому компанія хоче додати підтримку таких звуків, як гавкіт, стукіт і дзвін. Для цього штучного інтелекту доведеться навчитися розрізняти джерела звуків: дзвін, наприклад, можуть видавати телефон, будильник або дверний дзвінок.

Це варто зусиль розробників:

вони провели дослідження, дві третини учасників якого сказали, що з підписами відео дивитися комфортніше.

Автоматичні субтитри з'явилися в YouTube в листопаді 2009 року. Алгоритми компанії поки далекі від ідеалу і їх доводиться допрацьовувати - через неправильне вимови, діалектів, акцентів і фонових шумів. Проте, функція дуже популярна: більше 15 мільйонів роликів з автоматичними субтитрами люди дивляться кожен день, а всього таких відео в сервісі - понад мільярд.

Джерело: InternetUA