Код креативности. Как искусственный интеллект учится писать, рисовать и думать — страница 8 из 64

Все было готово для увлекательнейшего поединка, и 9 марта игроки – то есть по меньшей мере один игрок – сели за первую из пяти партий.

«Очень, очень красиво»

Когда я включил YouTube-канал, транслировавший матч Ли Се-доля против AlphaGo, и присоединился к 280 миллионам других зрителей, собравшихся наблюдать за схваткой человечества с машинами, я испытывал некоторую экзистенциальную тревогу. В течение многих лет я уподоблял творческую работу математика игре в го, так что для меня ставки были высоки.

Ли Седоль взял черный камень, поставил его на доску и стал ждать ответного хода. Физически ходить за AlphaGo должен был сотрудник DeepMind Аджа Хуан. В самом деле, речь шла об испытаниях искусственного интеллекта, а не робототехники. Хуан смотрел на экран AlphaGo, ожидая ответа программы на первый ход Ли Седоля. Но на экране ничего не появлялось.

Мы все смотрели на свои экраны, недоумевая, не обрушилась ли программа. Сотрудники DeepMind тоже начали подозревать, что происходит что-то не то. Первые ходы партии обычно бывают своего рода формальностью. Ни один человек не стал бы так долго обдумывать ход номер 2. В конце концов, на доске еще не произошло ничего содержательного. В чем же дело? И тут на компьютерном экране появился белый камень. Команда DeepMind облегченно выдохнула. Игра началась! В течение следующей пары часов камни стали накапливаться по всей доске.

Когда я смотрел матч, мне было трудно определить, кто выигрывает в тот или иной момент партии. Оказывается, дело тут не только в том, что я не очень опытный игрок в го. Это свойство самой игры. Более того, в этом заключается одна из основных причин, по которым так сложно создать программу, позволяющую компьютеру играть в го. Текущее состояние игры совсем не просто представить в виде однозначной системы счета, показывающей, кто из игроков имеет преимущество и какое именно.

Следить за счетом по мере развития шахматной партии гораздо легче. У каждой фигуры есть определенная, численно выражаемая ценность, и эти цифры позволяют в первом приближении понять, кто выигрывает. Шахматы – игра деструктивная. По ходу партии фигуры поочередно исчезают с доски, и положение на ней упрощается. Партия в го, напротив, становится по ходу игры все сложнее и сложнее. Это конструктивная игра. Комментаторы продолжали высказывать свои наблюдения, но до самых последних минут партии не могли с уверенностью сказать, кто из противников имеет преимущество.

Зато они довольно быстро смогли разгадать дебютную стратегию Ли Седоля. Поскольку программа AlphaGo училась играть по партиям, сыгранным в прошлом, Ли Седоль исходил из того принципа, что ему будет выгодно играть неожиданным для программы образом, используя ходы, не входящие в канонический репертуар игры. Проблема заключалась в том, что для этого Ли Седоль должен был вести нестандартную игру – игру, несвойственную ему самому.

Идея была хороша, но она не сработала. Любая обычная машина, запрограммированная на использование базы данных стандартных дебютов, не знала бы, как реагировать на такую игру, и, скорее всего, сделала бы ход, который привел бы к серьезным последствиям в долгосрочной перспективе – в масштабах всей партии. Но AlphaGo не была обычной машиной. Она умела оценивать новые ходы и находить правильный ответный ход, опираясь на то, чему она научилась, сыграв множество партий. Дэвид Силвер, ведущий программист AlphaGo, объяснял в преддверии матча: «AlphaGo разыграла миллионы партий между своими собственными нейронными сетями и, постепенно совершенствуясь, научилась изобретать новые стратегии». То, что Ли Седоль стал разыгрывать партию в непривычном стиле, ему не помогло, а скорее даже помешало.

Следя за игрой, я невольно сочувствовал Ли Седолю. Было видно, как его покидает уверенность в собственных силах и он постепенно осознает, что проигрывает. Он то и дело бросал взгляды на Хуана, представителя DeepMind, который делал ходы за AlphaGo, но выражение лица Хуана не давало ему никакой информации. К 186-му ходу Ли Седолю пришлось признать, что он не сможет преодолеть то преимущество, которое накопила на доске AlphaGo. Он положил камень на край доски, тем самым признав свое поражение.

К концу первого дня счет в матче AlphaGo – люди стал 1: 0. На пресс-конференции, проведенной в этот день, Ли Седоль признал: «Я был очень удивлен, так как никогда не подумал бы, что проиграю».

Но по-настоящему потрясла – не только Ли Седоля, но и всех людей, играющих в го, – вторая партия. В первой партии специалисты могли следить за ходом игры и понимали, почему AlphaGo делает тот или иной ход. Такие же ходы вполне мог делать человек. Но, когда я смотрел вторую партию, сидя дома перед своим лэптопом, случилось нечто странное. Ли Седоль сделал 36-й ход и ушел на крышу гостиницы покурить. Пока его не было, AlphaGo сделала 37-й ход: она побудила представлявшего ее человека, Хуана, поставить черный камень на пятую линию от края доски. Все были ошарашены.

Всем известно, что на начальных этапах игры камни следует ставить на четыре внешние линии. Третья линия позволяет накапливать кратковременное территориальное преимущество на краю доски, а камни, поставленные на четвертую линию, дают более сильную позицию в дальнейшей игре по мере продвижения к центру. Игрокам всегда приходится тщательно выбирать между игрой на третьей и четвертой линии. Игра же на пятой линии всегда считалась нерациональной, так как она дает противнику шанс занять территорию, обеспечивающую как краткосрочное, так и долгосрочное преимущество.

Программа AlphaGo разрушила эту догму, утвердившуюся в течение многих столетий соревнований. Некоторые из комментаторов назвали ее ход явной ошибкой. Другие высказывались более осторожно. Всем было интересно узнать, как воспримет этот ход Ли Седоль, когда вернется с перекура. Когда он сел за стол, было видно, как он буквально вздрогнул, увидев на доске новый камень. Этот ход, несомненно, потряс его, так же как и всех остальных. Он раздумывал над ним более двенадцати минут. Подобно шахматным матчам, игра проводилась с ограничением по времени. Целых 12 минут, потраченные на обдумывание одного хода, стоили очень дорого. То, что ответный ход занял у Ли Седоля столь долгое время, показывает, насколько неожиданной была игра программы. Ли Седоль не мог понять, что делает AlphaGo. Почему она вышла за пределы того участка доски, который они оспаривали до этого?

Было ли это ошибкой AlphaGo? Или же программа увидела в глубине игры нечто, чего не могли заметить люди? Фань Хуэй, назначенный одним из арбитров, тоже взглянул на доску. Его первая реакция была такой же, как и у всех остальных, – потрясение. А затем он начал понимать. «Это не человеческий ход. Я никогда не видел, чтобы человек так играл, – сказал он. – Такой красивый ход. Очень, очень красивый».

Ход этот оказался не только красивым, но и убийственным. Это была не ошибка, а необычайно глубоко продуманное действие. Ходов через пятьдесят, по мере того как черные и белые камни оспаривали друг у друга территорию, продвигаясь от нижнего левого угла доски, оказалось, что они постепенно приближаются к черному камню, поставленному на 37-м ходу. Именно воссоединение с этим камнем и дало AlphaGo преимущество, позволившее программе одержать вторую победу. Счет стал 2: 0 в пользу AlphaGo.

На пресс-конференции, состоявшейся после игры, настроение Ли Седоля было заметно другим. «Вчера я был удивлен. Но сегодня у меня нет слов… Я потрясен. Я готов признать, что… третья партия будет для меня непростой». Матч состоял из пяти партий. Чтобы не позволить AlphaGo выиграть весь матч, в этой партии Ли Седолю было необходимо победить.

Человек дает отпор

На следующий день Ли Седоль восстанавливал силы. Третья партия была назначена на субботу 12 марта. В отличие от машины человеку нужно было отдохнуть. Первая партия продолжалась более трех часов, с огромной концентрацией сил. Вторая продлилась более четырех часов. Проигрыш двух партий подряд заметно ухудшил его эмоциональное состояние.

Однако вместо отдыха Ли Седоль до 6 утра занимался анализом уже сыгранных партий вместе с группой профессиональных игроков в го. Есть ли у AlphaGo слабые места, которые можно использовать против нее? Учиться и совершенствоваться способна не только машина. Ли Седоль считал, что сможет извлечь из своих поражений полезные уроки.

В дебюте третьей партии Ли Седоль играл очень агрессивно, и AlphaGo была вынуждена заниматься слабой группой камней, расположенной в контролируемой ею зоне доски. Среди комментаторов возникло радостное волнение. Некоторые говорили, что Ли Седоль нашел слабое место AlphaGo. Но затем, как написал один из комментаторов, «ситуация стала пугающей. Когда я смотрел за развитием игры и начал понимать, что в ней происходит, мне стало физически нехорошо».

Ли Седоль заставил AlphaGo играть на пределе возможностей, но в результате этого у программы, по-видимому, обнаружились скрытые ресурсы. По мере развития игры она начала делать ходы, которые комментаторы называли ленивыми. Она анализировала свое положение и была настолько уверена в своей победе, что выбирала ходы наименее рискованные. Ее вполне устраивала победа с перевесом в пол-очка. Важно было только победить. Такие ленивые ходы были почти что оскорбительны для Ли Седоля, но в программу AlphaGo не было заложено никакой мстительности. Ее единственной целью была победа в игре. Ли Седоль, не желавший слишком быстро сдаваться, пробовал то одну, то другую тактику. Ведь в одном из этих ленивых ходов могла быть пропущена ошибка, которой он смог бы воспользоваться.

Но к 176-му ходу Ли Седоль все же смирился с поражением и сдался. AlphaGo выигрывала у человека со счетом 3: 0. Собравшиеся за кулисами сотрудники DeepMind испытывали странный спектр чувств. Они одержали победу в матче, но радоваться ей было трудно, видя, какое сокрушительное воздействие это произвело на Ли Седоля. Приз – миллион долларов – принадлежал им. Еще до игры они решили, что в случае победы пожертвуют призовые деньги разным благотворительным организациям, способствующим развитию го и научных исследований, а также ЮНИСЕФ. Но чисто по-человечески они не могли не сопереживать страданиям Ли Седоля.