Після перегляду тисячі годин телебачення, AI розпізнає мову по губах з 46,8% точністю.

Інженери компанії Google AI працювали спільно з дослідниками з Оксфордського університету для створення найбільш точною для читання по губах на сьогоднішній день програми. Переглядаючи тисячі годин відео від Бі-бі-сі, вченим вдалося створити нейронну мережу в AI, яка здатна читати по губах, з 46.8% точністю. Порівняно з професійною людиною, що читає по губах, програма перевершує всі можливості фахівця з великою перевагою.

Програмне забезпечення ґрунтується на роботі, опублікованій раніше у цьому місяці іншою науковою групою в Оксфорді. Використовуючи такі методи, ці вчені створили програмне забезпечення, яке вміло читати по губах з 93.4% точністю в деяких тестах, порівняно з точністю людини 52.3%. Слід зазначити, що ці тести проводилися з використанням спеціально записаних відео людей, які говорять ясно, шаблонні фрази, що в житті не завжди відбувається так. Тим не менш, програмне забезпечення було протестовано на спонтанної живої мови, і показало вельми гідні результати.

Більше 5000 годин записів були використані для програмного забезпечення Google. Відеозаписи включили, приблизно 17 500 унікальних слів.

Google говорить про те, що програмне забезпечення може використовуватися для різних додатків, від анотування німих фільмів до розпізнавання мовлення з камер відеоспостереження. Воно також може бути використано для контролю цифрових помічників. Дослідники стверджують, що є велика різниця між читанням по губах чіткої картинки по телевізору і зернистою камерою спостереження.

Технологія, зрозуміло, удосконалюється, тому, цілком можливо, що в майбутньому не залишиться перешкод для Google в 100% розпізнаванні мови по губах.