Искусственный интеллект Google оказался лучшим в чтении по губам

21 ноября 2016, 15:08

Искусственный интеллект DeepMind, разработанный компанией Google и Оксфордским университетом, оказался лучшим в чтении по губам – как среди аналогичных программ, так и среди людей-профессионалов. Люди смогли расшифровать только 12,4% слов без ошибок, у DeepMind этот показатель составил 46,8%. При этом многие его ошибки были мелкими промашками, вроде «s» в конце слова.

Для обучения и тестирования системы использовали около 5000 часов видео BBC из шести различных телепрограмм. В целом, набралось 118 тысяч предложений. Обучение длилось с января 2010 по декабрь 2015 года.

Две недели назад система глубокого обучения LipNet, разработанная в Оксфордском университете, также превзошла человека в чтении по губам, но тогда тестирование происходило на основе базы данных под названием GRID. Она содержит только 51 уникальное слово, в то время как в случае с BBC речь идет о 17500 уникальных слов, что делает чтение по губам гораздо более сложной задачей.