За два хода AlphaGo и Ли Седоль изменили будущее
Исторический матч по китайской игре го между одним из лучших игроков мира Ли Седолем и искусственным интеллектом AlphaGo завершился победой машины в четырех играх из пяти. Мы создали искусственный разум, и нам придется учиться у нашего собственного творения. Однако, действуя сплоченно, человек и машина способны совершать невозможное – прошедшая игра продемонстрировала это наглядно.
На этой неделе состоялся исторический матч между Ли Седолем (Lee Sedol), одним из лучших в мире игроков в китайскую стратегическую настольную игру го, и AlphaGo – системой с искусственным интеллектом, созданной группой исследователей в DeepMind (Лондонская лаборатория искусственного интеллекта, принадлежащая Google). В результате машина впервые смогла обыграть человека по итогам серии из пяти игр, одержав победу в четырех из пяти. Эксперты не ожидали победы искусственного интеллекта в эту древнюю и сложную игру, как минимум, еще лет десять.
Эта победа имеет большое значение, так как в AlphaGo используются технологии будущего. Они уже меняют работу таких компаний, как Google, Facebook, Microsoft и Twitter, и они могут заставить нас пересмотреть развитие разнообразных разработок – от робототехники до научных исследований. Особенно полно продемонстрирова
Ход 37
Своим 37 ходом во второй игре матча система AlphaGo сбила с толку даже лучших игроков го в мире, включая Ли Седоля.
«Это очень странный ход,» – описывал происходящее один из комментаторов, чемпион го высшего класса. «Я подумал, это была ошибка,» – сказал второй комментатор.
Это ход изменил направление всей игры. После победы AlphaGo, во время пресс конференции, Ли Седоль был в недоумении от произошедшего.
«Вчера я был удивлен, – говорил он о своем проигрыше в первой игре матча. – Но сегодня у меня просто нет слов. Если вы посмотрите на ход этой игры, я признаю, это абсолютный проигрыш с моей стороны. С самого начала игры не было ни единого момента, когда бы я чувствовал, что лидирую».
На следующее утро ведущий исследователь проекта AlphaGo Дэвид Сильвер рассказал о том, как машина сделала этот ход. Изначально команда разработчиков научила систему играть в древнюю игру, используя глубокую нейронную сеть, то есть сеть аппаратного и программного обеспечения, которая имитирует сеть нейронов в человеческом мозге. Такая технология уже используется в таких онлайн сервисах как Google, Facebook и Twitter, помогая определять лица на фотографиях, распознавать голосовые команды на смартфонах, генерирует поисковые системы и многое другое. Если вы загрузите в систему достаточно фотографий лобстера – она научится его узнавать, таким же образом если вы загрузите в нее 30 миллионов ходов лучших игроков – она научится играть в го.
Но команда исследователей не остановилась на этом. Она использовала вторую технологию искусственного интеллекта, называемую подкреплением обучения. Настроив бессчетное количество матчей между слегка различными версиями AlphaGo, они заставили играть систему саму с собой, тем самым научив ее отслеживать, какие ходы являлись наиболее удачными.
«AlphaGo научилась открывать новые стратегии для себя, играя миллионы матчей между собственными нейронными сетями, и потому постепенно улучшалась,» – говорит Сильвер.
Далее ученые собрали все ходы этих матчей между машинами и внесли их во вторую нейронную сеть, которая заставляла систему изучать потенциальные результаты каждого хода и планировать игру на будущее.
Таким образом, сначала AlphaGo училась на ходах лучших игроков, далее на ходах, которые она делала во время игры «с собой». Она понимает, как играет человек, но умеет переносить игру на совершенно другой уровень. Как объяснил Сильвер, во время 37-го хода AlphaGo рассчитала, что имеется одна десятитысячная возможность, что человек сделает этот ход, но потом она использовала все свои знания и, рассчитав игру наперед, все равно решила сделать ход, который оказался гениальным.
Ход 78
Ли Седоль проиграл и третью игру, таким образом AlphaGo уже наверняка претендовала на приз в размере $1 млн. На этом этапе Седоль извинился за свои результаты, но набрался решимости добиться победы в четвертой игре, чтобы сохранить свое достоинство.
Несмотря на пессимистичные ожидания публики, Ли Седолю удалось все-таки совершить тот ход, который смог повернуть игру в его пользу. Как выяснилось после игры, система искусственного интеллекта ответила ужасным ходом и, проанализировав свои шансы на победу, через пару минут пришла к выводу, что шансов выиграть игру практически не осталось. Комментаторы назвали ход Седоля превосходным, предположив, что даже AlphaGo была застигнута им врасплох. Игроки го уже назвали этот ход «прикосновением бога», и он действительно демонстрирует оригинальность игрока. Но в дальнейшем AlphaGo опять восстановила свою лидирующую позицию.
Как утверждает куратор проекта DeepMind Lab Демис Хассабис, который представлял AlphaGo в течение семидневного матча, система не была готова к подобному ходу Седоля, так как не рассчитала, что человек сможет сделать этот ход. Опираясь на месяцы своих тренировок, AlphaGo вновь рассчитала одну десятитысячную вероятность такого развития событий – с такой вероятностью человек мог бы выполнить 37-й ход машины.
Симметрия этих двух ходов завораживает. Именно это следует вынести из соревнования машины и человека. Хассабис, Сильвер и вся команда разработчиков создали сверхчеловеческий интеллект. Но в то же время, он не безупречен. Система не способна на все, на что способен человек: она не может поддержать разговор, пройти школьный тест по естествознанию и не может претендовать на «прикосновение бога».
После этой серии игр Фань Хуэй и Ли Седоль признают, что игры с искусственным интеллектом помогли им самим взглянуть на многие вещи по-другому. Не только машина собирает знания после игры, но и люди учатся у этой компьютерной системы. Ведь неизвестно, сделал ли бы Ли Седоль свой 78-й ход, если бы не проиграл до этого трижды AlphaGo.
Комментарии