Идиот или гений? Как работает и на что способен искусственный интеллект — страница 17 из 19

Знание, абстракция и аналогия в искусственном интеллекте

С 1950-х годов многие представители ИИ-сообщества изучали способы сделать ключевые аспекты человеческого мышления – такие, как изначальное интуитивное знание и построение абстракций и аналогий, – частью машинного интеллекта и тем самым позволить системам ИИ действительно понимать ситуации, с которыми они сталкиваются. В настоящей главе я опишу несколько исследований на эту тему, включая некоторые направления моей прошлой и текущей работы.

Изначальное знание для компьютеров

На заре ИИ, пока машинное обучение и нейронные сети не заняли господствующее положение в отрасли, исследователи вручную кодировали правила и знания, необходимые программе для выполнения задач. Многим пионерам ИИ казалось, что таким методом “встраивания” можно сообщить машинам достаточно основанных на здравом смысле человеческих знаний, чтобы машины получили интеллект человеческого уровня.

Самой знаменитой и длительной попыткой вручную закодировать повседневные знания для машин стал проект Дугласа Лената Cyc (“Сайк”). Ленат – сначала аспирант, а затем профессор Лаборатории искусственного интеллекта Стэнфордского университета – прославился в 1970-х годах, когда написал программы, которые моделировали процесс создания человеком новых понятий, особенно в математике[334]. Однако, посвятив исследованию этой сферы более десяти лет, Ленат пришел к выводу, что для истинного прогресса в ИИ машины должны обладать здравым смыслом. В связи с этим он решил собрать огромный набор фактов о мире и прописать логические правила, в соответствии с которыми программы смогут использовать этот набор, устанавливая необходимые им факты. В 1984 году Ленат ушел с академического поста и основал компанию (ныне – Cycorp), чтобы достичь этой цели.

Название Cyc отсылает к слову encyclopedia, но, в отличие от знакомых нам энциклопедий, в Cyc, по мысли Лената, должны были войти все неписаные человеческие знания – или, по крайней мере, достаточный объем таких знаний, чтобы системы ИИ смогли работать на человеческом уровне в области зрения, языка, планирования, логических рассуждений и т. д.

Cyc – это система символического ИИ такого типа, как я описала в главе 1: она содержит набор написанных логическим компьютерным языком утверждений о конкретных объектах или общих понятиях. Вот несколько примеров утверждений из Cyc (переведенных с логического языка на естественный)[335]:

• Объект не может находиться более чем в одном месте в одно время.

• Объекты год за годом стареют.

• У каждого человека есть мать, и эта мать – женщина.

Проект Cyc также включает в себя сложные алгоритмы для построения логических выводов из утверждений. Так, Cyc может определить, что если я нахожусь в Портленде, то я также не нахожусь в Нью-Йорке, поскольку я объект, Портленд и Нью-Йорк – места, а объект не может находиться более чем в одном месте в одно время. Помимо этого, Cyc имеет богатый набор методов для работы с противоречивыми и неопределенными утверждениями.

Утверждения Cyc вручную закодированы людьми (а именно сотрудниками Cycorp) или выведены системой на основе существующих утверждений[336]. Сколько утверждений необходимо, чтобы закодировать человеческое знание, основанное на здравом смысле? На лекции в 2015 году Ленат сказал, что в настоящий момент в Cyc содержится 15 миллионов утверждений, и предположил: “Вероятно, это около пяти процентов от необходимого”[337].

Лежащая в основе Cyc философия роднит проект с экспертными системами, которые создавались в первые годы исследования ИИ. Как вы помните, в главе 2 упоминалась экспертная система для медицинской диагностики MYCIN. Для создания правил, на основе которых система сможет ставить диагнозы, разработчики взяли интервью у ряда “экспертов” – квалифицированных врачей. Затем разработчики перевели эти правила на логический компьютерный язык, чтобы позволить системе делать логические выводы. В Cyc “экспертами” выступают люди, которые вручную переводят свои знания о мире в логические утверждения. “База знаний” Cyc больше базы знаний MYCIN, а применяемые алгоритмы логического вывода более продвинуты, но у проектов одна идея: интеллект можно вручную закодировать в правила, применяемые к достаточно богатому набору явно заданных знаний. Сегодня в сфере ИИ господствует глубокое обучение, и Cyc остается одним из последних крупных проектов символического ИИ[338].

Если инженеры Cycorp потратят достаточное количество времени и сил, смогут ли они действительно закодировать все человеческие знания, основанные на здравом смысле, или хотя бы их достаточную часть (какую бы их часть при этом ни признали “достаточной”)? Сомневаюсь. Если все люди обладают основанными на здравом смысле знаниями, но эти знания нигде не записаны, значит, существенная их часть остается неосознанной – мы даже не знаем, что они у нас есть. Мы не осознаем значительную долю изначальных интуитивных знаний физики, биологии и психологии, которые лежат в основе наших представлений о мире. Если вы не сознаете, что знаете что-либо, то не можете быть “экспертом”, который в явной форме задает это знание компьютеру.

Кроме того, как я отметила в предыдущей главе, основанные на здравом смысле знания усваиваются путем построения абстракций и аналогий. Здравый смысл не может существовать без этих способностей. Но человеческие способности к построению абстракций и аналогий невозможно приобрести, анализируя массивный набор фактов Cyc, и, я полагаю, путем логического вывода вообще.

На момент написания этой книги работа над проектом Cyc ведется более тридцати лет. Cycorp и ее дочерняя компания Lucid коммерциализируют проект, предлагая целый спектр решений для бизнеса. На сайтах обеих компаний рассказываются “истории успеха” о применении Cyc в финансах, нефтегазовой отрасли, медицине и других сферах. В некотором роде Cyc повторяет путь суперкомпьютера Watson, разработанного IBM: оба запускались как масштабные исследовательские проекты с далеко идущими целями, и оба превратились в набор коммерческих продуктов с раздутой рекламой (так, Cyc “обеспечивает компьютеры человеческим пониманием и логическим мышлением”[339]), но узким, а не общим фокусом и недостатком прозрачности при описании реальной производительности и способностей системы.

Проект Cyc не оказал особого влияния на основные направления работы в сфере ИИ. Более того, некоторые представители ИИ-сообщества выступили с резкой критикой проекта. Так, профессор Вашингтонского университета и специалист по ИИ Педро Домингос назвал Cyc “самым громким провалом в истории ИИ”[340]. Специалист по робототехнике из MIT Родни Брукс выразился чуть мягче: “Несмотря на масштабы проекта, [Cyc] не привел к созданию системы ИИ, способной хотя бы на базовом уровне понимать мир”[341].

Но как быть с наделением компьютеров неосознаваемыми знаниями о мире, которые мы усваиваем в детстве и кладем в основу всех своих представлений? Как нам обучить компьютер, например, интуитивной физике объектов? Несколько исследовательских групп приняли этот вызов и сейчас разрабатывают системы ИИ, усваивающие некоторые знания о причинно-следственной физике мира из видеороликов, видеоигр и других типов виртуальной реальности[342]. Все эти проекты весьма любопытны, но пока успели сделать лишь несколько крошечных шагов, а потому их изначальные интуитивные знания о мире сравнимы со знаниями младенца.

Когда глубокое обучение продемонстрировало целую серию успехов, многим – как в сообществе ИИ, так и за его пределами – показалось, что создание общего ИИ человеческого уровня не за горами. Однако, как я не раз говорила в этой книге, при более широком применении систем глубокого обучения в их “интеллекте” обнаруживаются изъяны. Даже самые успешные системы не умеют обобщать понятия за пределами узких областей своей компетенции, строить абстракции и устанавливать причинно-следственные связи[343]. Кроме того, их нечеловеческие ошибки и уязвимость к так называемым контрпримерам показывают, что они не понимают концепции, которым мы пытаемся их обучить. Можно ли исправить эти недостатки с помощью большего объема данных или более глубоких сетей? Или же проблема гораздо серьезнее? Споры об этом не утихают по сей день[344].

В последнее время я наблюдаю сдвиг в этих дебатах: сообщество ИИ снова заговорило о первостепенной важности наделения машин здравым смыслом. В 2018 году один из основателей Microsoft Пол Аллен удвоил бюджет своего исследовательского института с целью изучения здравого смысла. Не отстают и государственные финансирующие организации: в 2018 году Управление перспективных исследовательских проектов Министерства обороны США (DARPA), один из основных государственных спонсоров исследований искусственного интеллекта, обнародовало планы предоставить значительное финансирование для изучения здравого смысла в ИИ. “ [Сегодня] машины мыслят узко, а их рассуждения имеют в высшей степени специализированный характер, – подчеркнули в управлении. – Рассуждения на основе здравого смысла машинам никак не даются. Программа [финансирования] приведет к созданию знаний, в большей степени напоминающих человеческие, например основанных на восприятии, и позволит машинам на основе здравого смысла рассуждать о физическом мире и пространственно-временных феноменах”[345].

Абстракция в идеале

“Формирование абстракций” входило в список ключевых способностей ИИ, перечисленных в дартмутской заявке 1955 года, которую я описала в главе 1. Тем не менее задача научить машины строить концептуальные абстракции на манер человека по-прежнему не решена.

Именно вопросы построения абстракций и аналогий однажды привели меня в сферу ИИ. Мой интерес разгорелся с особенной силой, когда я открыла для себя зрительные головоломки, называемые задачами Бонгарда. Эти задачи предложил советский кибернетик Михаил Бонгард, который в 1967 году опубликовал книгу “Проблема узнавания”[346]. В книге описывалась предлагаемая Бонгардом система распознавания зрительных образов, напоминающая перцептрон, но наиболее значимой частью работы стало приложение, в котором Бонгард собрал сто задач для программ ИИ. На рис. 45 показаны примеры задач из коллекции Бонгарда[347].

В каждой задаче изображены 12 квадратов: шесть слева и шесть справа. В шести левых квадратах содержатся примеры одного понятия, в шести правых квадратах – примеры другого, “родственного” понятия, и два этих понятия идеально определяют два набора квадратов. Необходимо назвать эти понятия. Например, на рис. 45 понятия таковы (по часовой стрелке): “большой” и “маленький”, “белый” и “черный” (или “незакрашенный” и “закрашенный”, если хотите), “право” и “лево”, “вертикальный” и “горизонтальный”.


Рис. 45. Четыре задачи из книги Бонгарда. В каждой задаче необходимо определить, какие понятия отличают шесть квадратов слева от шести квадратов справа. Например, в задаче № 2 это понятия “большой” и “маленький”


Решить задачи с рис. 45 довольно просто. В своей книге Бонгард расположил примеры в порядке повышения предполагаемой трудности. Ради интереса взгляните на шесть более трудных примеров, приведенных на рис. 46. Я дам ответы на них ниже.

Бонгард составил задачи таким образом, чтобы их решение требовало способностей к построению абстракций и аналогий, которые необходимы человеку и системе ИИ в реальном мире. В задаче Бонгарда можно считать каждый из двенадцати квадратов миниатюрной идеализированной “ситуацией”, в которой участвуют различные объекты, признаки и взаимосвязи. Ситуации слева имеют некоторую общую “суть” (например, они “большие”), а ситуации справа – противоположную общую “суть” (например, они “маленькие”). В задачах Бонгарда, как и в жизни, бывает нелегко понять, в чем заключается суть ситуации. Как выразился специалист по когнитивистике Роберт Френч, для построения абстракций и аналогий необходимо замечать “неуловимое тождество”[348].


Рис. 46. Шесть дополнительных задач Бонгарда


Чтобы найти неуловимое тождество, нужно определить, какие признаки ситуации значимы, а какие можно опустить. В задаче № 2 (рис. 45) неважно, какого цвета фигура (черная или белая), где она находится в ячейке и какой она формы (круг, треугольник и др.). Важен только ее размер. Конечно, размер важен не всегда: в остальных задачах с рис. 45 размер не имеет значения. Как мы, люди, так быстро определяем значимые признаки? Как научить этому машину?

Чтобы машинам было еще сложнее, понятия в задачах могут быть зашифрованы абстрактным, неочевидным образом, как в задаче № 91 (“три” и “четыре”). В некоторых задачах системе ИИ нелегко понять, что считать объектом: так, в задаче № 84 (“вне” и “внутри”) значимые “объекты” состоят из более мелких объектов (здесь – из маленьких кружков). В задаче № 98 объекты “замаскированы”: людям легко разглядеть спрятанные в квадратах фигуры, но для машин эта задача оказывается сложнее, поскольку им непросто отделить передний план от заднего.

Задачи Бонгарда также требуют умения формировать новые понятия на ходу. Хороший пример – задача № 18. Сходство левых ячеек непросто описать словами – это что-то вроде “объекты с сужением, или перемычкой”. Но даже если вы никогда раньше не думали ни о чем подобном, вы быстро замечаете это сходство между объектами. Подобным образом в задаче № 19 появляются новые смыслы: слева собраны “объекты с горизонтальной перемычкой”, а справа – “объекты с вертикальной перемычкой”. Люди без труда справляются с абстрагированием новых, трудновыразимых понятий – еще одним аспектом “неуловимости тождества”, – но ни одна из существующих систем ИИ пока не добилась успеха в этой сфере.

Книга Бонгарда была опубликована на английском в 1970 году, но знали о ней немногие. Однако Дуглас Хофштадтер, прочитавший ее в 1975 году, оценил сто задач из приложения и подробно описал их в собственной книге “Гёдель, Эшер, Бах”. Именно там я их впервые увидела.

Мне с детства нравились головоломки – и особенно задачи на логику и поиск закономерностей, – а потому, когда я взялась за “ГЭБ”, самое сильное впечатление на меня произвели задачи Бонгарда. Меня также заинтересовали описанные в “ГЭБ” идеи Хофштадтера о том, как создать программу для решения задач Бонгарда, которая бы имитировала человеческое восприятие и построение аналогий. Возможно, именно читая этот раздел, я решила заняться исследованиями ИИ.

Увлекшись задачами Бонгарда, несколько исследователей создали программы ИИ, которые пытаются их решать. Большинство программ делает упрощающие допущения (например, ограничивает набор возможных форм и взаимодействий между формами или совершенно игнорирует зрительные аспекты и отталкивается от созданного людьми описания изображений). Каждая из программ смогла решить подмножество конкретных задач, но ни одна при этом не продемонстрировала генерализационных способностей человеческого типа[349].


Рис. 47. Пример преобразования задачи Бонгарда в задачу на классификацию с двенадцатью обучающими примерами и новым “тестовым” примером


А как же сверточные нейронные сети? Учитывая, что они прекрасно справляются с классификацией объектов (например, на масштабном соревновании ImageNet Visual Recognition Challenge, которое я описала в главе 5), разве нельзя научить их решать задачи Бонгарда? Теоретически задачу Бонгарда можно превратить в задачу на “классификацию” для сверточной нейронной сети, как показано на рис. 47: шесть левых квадратов можно считать тренировочными примерами из “класса 1”, а шесть правых квадратов – тренировочными примерами из “класса 2”. Теперь дадим системе новый “тестовый” пример. В какой из двух классов его следует поместить?

Сразу возникает препятствие: набор из двенадцати тренировочных примеров до смешного мал для обучения сверточной нейронной сети, которой, возможно, не хватит и двенадцати сотен. Само собой, отчасти именно это Бонгард и показал на примере задач: мы, люди, без труда определяем искомые понятия, имея всего двенадцать примеров. Какой объем тренировочных данных необходим СНС, чтобы она научилась решать задачу Бонгарда? Хотя никто пока не проводил систематического исследования решения задач Бонгарда с помощью сверточных нейронных сетей, одна группа исследователей проанализировала работу современных СНС с задачей на выявление “одинаковых и разных” форм, используя изображения наподобие приведенного на рис. 47[350]. В класс 1 вошли изображения с двумя фигурами одинаковой формы, а в класс 2 – изображения с двумя фигурами разных форм. Для тренировки сети исследователи использовали не 12, а по 20 000 примеров для класса 1 (“одинаковые”) и класса 2 (“разные”). После тренировки каждая сверточная нейронная сеть тестировалась на 10 000 новых примеров. Все примеры генерировались автоматически с использованием множества разных форм. Обученные СНС справлялись с задачей лишь немногим лучше, чем при случайном угадывании, в то время как доля верных ответов у людей, протестированных авторами, стремилась к 100 %. Иными словами, современные сверточные нейронные сети прекрасно справляются с выявлением признаков, необходимых для распознавания объектов ImageNet и выбора ходов в го, но не обладают способностью к построению абстракций и аналогий, необходимой даже для решения идеализированных задач Бонгарда, не говоря уже о задачах реального мира. Похоже, тех типов признаков, которые могут усвоить эти сети, недостаточно для построения таких абстракций, на каком бы количестве примеров ни проходило обучение сети. Этот недостаток свойственен не только сверточным нейронным сетям: ни одна из существующих систем ИИ не обладает никаким подобием этих фундаментальных способностей человека.

Активные символы и построение аналогий

Прочитав книгу “Гёдель, Эшер, Бах” и решив заняться исследованиями ИИ, я связалась с Дугласом Хофштадтером, надеясь, что смогу работать над чем-то вроде задач Бонгарда. К счастью, он поддался на мои уговоры и позволил мне присоединиться к его исследовательской группе. Хофштадтер объяснил, что его группа создает компьютерные программы, ориентируясь на то, как люди понимают ситуации и проводят аналогии между ними. Защитив диссертацию по физике (дисциплине, где идеализация – например, пренебрежение силой трения при движении – служит основной движущей силой), Хофштадтер был уверен, что лучше всего изучать феномен (здесь – построение аналогий человеком) в идеализированной форме. В исследованиях ИИ часто используются так называемые микромиры – идеализированные области вроде задач Бонгарда, в которых исследователь может развивать свои идеи, прежде чем тестировать их в более сложных областях. Для своего исследования об аналогиях Хофштадтер создал микромир, который был идеализирован еще сильнее, чем задачи Бонгарда: задачи на аналогию с алфавитными последовательностями. Вот пример:

Задача 1. Допустим, последовательность букв abc меняется на abd. Как изменить последовательность pqrs “аналогичным образом”?

Большинство людей дает ответ pqrt, выводя примерно такое правило: “Крайняя правая буква заменяется на следующую за ней букву алфавита”. Само собой, можно вывести и другие правила, и тогда ответ будет другим. Вот несколько альтернатив:

pqrd: “Крайняя правая буква меняется на d”.

pqrs: “Все c меняются на d. В pqrs нет c, поэтому ничего не меняется”.

abd: “Любая последовательность меняется на последовательность abd”.

Может показаться, что в альтернативных ответах задача трактуется чересчур буквально, но нет никакого строго логического аргумента, который говорил бы, что эти ответы неверны. Более того, можно вывести бесконечное число других правил. Почему большинство людей считает, что один из ответов (prqt) лучше всех остальных? Похоже, наши ментальные механизмы абстрагирования – которые развивались, чтобы обеспечивать нам выживание и воспроизводство в реальном мире, – работают и в этом идеализированном микромире.

Вот другой пример:

Задача 2. Допустим, последовательность abc меняется на abd. Как изменить последовательность ppqqrrss “аналогичным образом”?

Даже в этом простом алфавитном микромире сходства могут быть неуловимыми, по крайней мере для машин. В задаче 2 буквальное применение правила “крайняя правая буква заменяется на следующую за ней букву алфавита” даст ответ ppqqrrst, но большинству людей такой ответ кажется слишком буквальным. Люди чаще дают ответ ppqqrrtt, считая, что пары букв в последовательности ppqqrrss, соответствуют отдельным буквам последовательности abc[351]. Мы, люди, склонны группировать одинаковые или подобные объекты.

Задача 2 иллюстрирует в этом микромире идею о концептуальном переходе, лежащем в основе построения аналогий[352]. Когда вы пытаетесь распознать сущностное сходство двух разных ситуаций, некоторые концепции первой ситуации необходимо “перенести”, то есть заменить родственными концепциями второй ситуации. В задаче 2 концепция буквы переходит в концепцию группы букв, а потому правило “крайняя правая буква заменяется на следующую за ней букву алфавита” меняется на “крайняя правая группа букв заменяется на группу, составленную из букв, следующих за ней по алфавиту”.

Теперь рассмотрим следующую задачу:

Задача 3. Допустим, последовательность abc меняется на abd. Как изменить последовательность xyz “аналогичным образом”?

Большинство людей дает ответ xya, считая, что за буквой z по алфавиту “следует” буква a. Но что, если вы компьютерная программа, которая не имеет представления о “цикличности” алфавита, а потому считает, что за буквой z не следует никакая другая буква? Какие ответы будут обоснованными? Попросив людей найти такие ответы, я получила множество вариантов – и весьма любопытных. Часто ответы обращались к физическим метафорам: например, xy (потому что z “падает с обрыва”), xyy (потому что z “отскакивает назад”) и wyz. В последнем ответе предполагается, что a и z “стоят у стены” на противоположных концах алфавита, то есть играют схожие роли, а следовательно, если концепция “первой буквы в алфавите” переходит в концепцию “последней буквы в алфавите”, то концепция “крайней правой буквы” переходит в концепцию “крайней левой буквы”, а концепция “следующей буквы” – в концепцию “предыдущей буквы”. Задача 3 показывает, как построение аналогии может запустить каскад ментальных переходов.

Микромир буквенных последовательностей делает концептуальный переход наглядным. В других областях он может происходить не столь очевидно. Так, если снова взглянуть на задачу Бонгарда № 91 с рис. 46, где сходство шести левых квадратов описывается понятием “три”, можно заметить, что объекты, выражающие понятие “три”, меняются от квадрата к квадрату: например, слева вверху это отрезки, слева посередине – квадраты, а слева внизу – трудноописуемые пики (может, “зубцы гребенки”?). Концептуальный переход также играл важную роль в различных абстракциях, которые воображаемая дочь S (из предыдущей главы) строила по мере взросления: так, в ее юридической аналогии концепция “сайта” перешла в концепцию “стены”, а концепция “создание поста в блоге” – в концепцию “создание граффити”.

Хофштадтер описал компьютерную программу Copycat, которая могла бы решать подобные задачи, используя общие алгоритмы, подобные тем, что люди, по его мнению, применяют при построении аналогий в любой области. Название Copycat (“Подражатель”) намекает, что вы (автор аналогий) должны решать задачи “по аналогии”, то есть “подражая” примеру. Исходная ситуация (например, abc) меняется некоторым образом, и вы должны “аналогично” изменить новую ситуацию (например, ppqqrrss).

Когда я присоединилась к исследовательской группе Хофштадтера, мне поручили вместе с ним работать над созданием Copycat. Как скажет вам любой, кто писал диссертацию, путь к защите состоит в основном из усердного труда, который перемежается досадными неудачами и сопровождается (по крайней мере в моем случае) постоянными сомнениями в себе. Но порой случаются головокружительные успехи – например, когда программа, над которой вы корпели целых пять лет, наконец работает. Здесь я опущу все сомнения, неудачи и бесчисленные часы работы, чтобы сразу перейти к тому моменту, когда я сдала свою диссертацию с описанием программы Copycat, которая умела решать несколько типов задач на аналогию с алфавитными последовательностями, рассуждая при этом (как я утверждала) примерно так же, как рассуждает человек.

Copycat не была ни символической программой на основе правил, ни нейронной сетью, но включала аспекты символического и субсимволического ИИ. Она решала задачи на аналогию с помощью постоянного взаимодействия между своими перцептивными процессами (выявляющими признаки в конкретной задаче на аналогию с алфавитными последовательностями) и первоначальными заложенными в нее понятиями (например, “буква”, “группа букв”, “следующая буква”, “предыдущая буква”, “такой же” и “противоположный”). Понятия программы были структурированы таким образом, чтобы имитировать ментальные модели, описанные в предыдущей главе. В частности, они были основаны на идее Хофштадтера об “активных символах” человеческого познания[353]. Я не стану описывать сложную архитектуру Copycat (но дам некоторые ссылки в примечаниях[354]). В конце концов, хотя Copycat умела решать многие задачи на аналогию с алфавитными последовательностями (включая приведенные выше примеры и множество их вариаций), она лишь поверхностно изучила свою огромную сферу. Вот, например, две задачи, с которыми она не справлялась:

Задача 4. Если azbzczd меняется на abcd, на что меняется pxqxrxsxt?


Задача 5. Если abc меняется на abd, на что меняется ace?

Для решения обеих задач необходимо формировать новые концепции на ходу, а Copycat этого не умела. В задаче 4 все z и x играют одинаковую роль “лишних букв, которые необходимо удалить, чтобы увидеть алфавитную последовательность”, и это дает ответ pqrst. В задаче 5 последовательность ace подобна последовательности abc, но образована буквами, которые следуют друг за другом не по порядку, а через одну, а потому ответом будет acg. Мне не составило бы труда наделить Copycat способностью считать количество букв, скажем, между a и c и c и e, но мне не хотелось встраивать в программу специфические способности для работы с алфавитными последовательностями. Copycat должна была стать экспериментальной площадкой для проверки общих идей о построении аналогий, а не полноценным “построителем аналогий для алфавитных последовательностей”.

Метапознание в мире алфавитных последовательностей

Важный аспект человеческого разума, которому сегодня уделяют не слишком много внимания в сообществе ИИ, – способность человека воспринимать и анализировать собственное мышление. В психологии ее называют способностью к метапознанию. Случалось ли вам, тщетно пытаясь решить задачу, вдруг понять, что вы повторяете одни и те же неэффективные мыслительные процессы? Со мной такое случается постоянно, но затем, заметив это, я порой нахожу способ разорвать замкнутый круг. Copycat, как и остальные программы ИИ, описанные на страницах этой книги, не имела механизмов самовосприятия, и это ограничивало ее работу. Иногда программа буксовала, снова и снова пытаясь решить задачу неверным способом, и не могла понять, что уже проходила по этому пути, но ни к чему не пришла.

Будучи аспирантом в группе Хофштадтера, Джеймс Маршалл поставил перед собой задачу научить Copycat анализировать собственное “мышление”. Он создал программу Metacat, которая не только решала задачи на аналогию с алфавитными последовательностями, как Copycat, но и пыталась выявлять закономерности в собственных действиях. Программа сопровождала свою работу комментариями, сообщая, какие концепции она узнает в ходе решения задачи[355]. Как и Copycat, Metacat показала любопытные результаты, но сумела развить лишь примитивные способности к самовосприятию, не сравнимые с человеческими.

Распознавание визуальных ситуаций

В настоящее время я занимаюсь разработкой системы ИИ, которая использует аналогии для гибкого распознавания визуальных ситуаций – визуальных сюжетов, включающих несколько объектов и их взаимодействие. Например, каждый снимок на рис. 48 представляет собой пример визуальной ситуации “прогулка с собакой”. Людям легко это понять, но системам ИИ очень тяжело узнавать примеры визуальных ситуаций, даже если ситуации совсем просты. Распознавать ситуации гораздо сложнее, чем отдельные объекты.

Мы с коллегами разрабатываем программу Situate, которая комбинирует способности глубоких нейронных сетей к распознаванию объектов с активно-символьной архитектурой Copycat, чтобы распознавать примеры конкретных ситуаций путем построения аналогий. Мы хотели бы, чтобы наша программа распознавала не только очевидные примеры вроде тех, что приведены на рис. 48, но и нестандартные примеры, которые требуют концептуальных переходов. В типовой ситуации “прогулка с собакой” задействованы человек (который гуляет с собакой), собака и поводок. Человек держит поводок, поводок прикреплен к собаке, и собака и человек при этом идут. Верно? Да, именно это мы видим в примерах на рис. 48. Но люди, понимающие концепцию прогулки с собакой, также узнают ее на всех изображениях с рис. 49, хотя и отметят, что каждое из них лишь “с натяжкой” можно считать вариацией типовой ситуации. Программа Situate, разработка которой только началась, должна стать платформой для проверки гипотез о построении аналогий человеком и продемонстрировать, что идеи, лежащие в основе Copycat, могут успешно работать за пределами микромира задач на аналогию с алфавитными последовательностями.


Рис. 48. Четыре очевидных примера ситуации “прогулка с собакой”


Рис. 49. Четыре нестандартных примера ситуации “прогулка с собакой”


Copycat, Metacat и Situate – лишь три из нескольких программ для построения аналогий, основанных на активно-символьной архитектуре Хофштадтера[356]. Кроме того, активно-символьная архитектура не единственный метод, который используется в ИИ-сообществе для создания программ, умеющих строить аналогии. И все же, хотя построение аналогий играет фундаментальную роль на всех уровнях человеческого познания, пока ни одна программа ИИ не демонстрирует в этой сфере способностей, сравнимых с человеческими.

“Мы еще очень, очень далеко”

Текущая эпоха искусственного интеллекта определяется господством глубокого обучения с триумвиратом глубоких нейронных сетей, больших данных и сверхбыстрых компьютеров. Тем не менее в стремлении к созданию надежного и общего интеллекта глубокое обучение, возможно, натыкается на стену: имеющий первостепенную важность “барьер понимания”. В настоящей главе я кратко описала некоторые разработки, направленные на преодоление этого барьера. Я рассказала, как исследователи (включая и меня) пытаются наделить компьютеры здравым смыслом и человеческими способностями к построению абстракций и аналогий.

Размышляя на эту тему, я особенно оценила любопытный и информативный пост в блоге Андрея Карпатого, специалиста по глубокому обучению и компьютерному зрению, который руководит развитием ИИ в Tesla. В своем посте под заголовком “Состояние компьютерного зрения и ИИ: мы еще очень, очень далеко”[357] Карпатый с позиции профессионала описывает свою реакцию на фотографию, показанную на рис. 50. Карпатый отмечает, что нам, людям, это изображение кажется довольно забавным, и спрашивает: “Как компьютеру понять это изображение так же, как понимаем мы с вами?”

Карпатый перечисляет множество вещей, которые понимают люди, но которые не под силу понять лучшим современным программам компьютерного зрения. Например, мы понимаем, что на снимке есть люди, а еще есть зеркала, поэтому некоторые человеческие фигуры – это зеркальные отражения. Мы понимаем, что действие происходит в раздевалке, и нас удивляет, что в раздевалке собралась целая группа людей в костюмах.

Кроме того, мы понимаем, что человек стоит на весах, хотя весы составлены из белых пикселей, которые сливаются с фоном. Мы понимаем, как отмечает Карпатый, что “Обама слегка надавливает ногой на весы”, и без труда описываем ситуацию в трехмерном пространстве, которое достраиваем сами, а не в двумерном пространстве фотографии. Интуитивное знание физики позволяет нам сделать вывод, что из-за ноги Обамы весы переоценят вес стоящего на них человека. Интуитивное знание психологии говорит нам, что человек на весах не знает, что Обама также поставил на них ногу: мы делаем такой вывод, замечая направление его взгляда и зная, что у него нет глаз на затылке. Мы также понимаем, что человек, вероятно, не чувствует, как Обама легонько надавил на весы. Наша теория психики позволяет нам предположить, что человек на весах не обрадуется, когда весы покажут ему больший вес, чем он ожидал.


Рис. 50. Фотография, обсуждаемая в блоге Андрея Карпатого


Наконец, мы понимаем, что Обама и другие люди, наблюдающие за происходящим, улыбаются, и делаем вывод, что всем понравилась шутка, которая, возможно, стала еще смешнее из-за статуса президента. Мы также понимаем, что все смеются по-доброму и ожидают, что мужчина на весах тоже рассмеется, когда узнает о шутке. “Вы делаете выводы о настроении людей и их представлении о настроении другого человека, – отмечает Карпатый. – И выходите на пугающий метауровень”.

В общем, “поразительно, что все вышеперечисленные выводы [люди] делают, просто взглянув на двумерную конфигурацию [пиксельных] значений”.

На мой взгляд, пример Карпатого прекрасно показывает сложность человеческого понимания и предельно ясно объясняет серьезность задачи, которая стоит перед ИИ. Карпатый написал свой пост в 2012 году, но и сегодня он остается актуальным – и это, полагаю, не изменится еще долгое время.

Карпатый завершает свой пост размышлением:

Казалось бы, неизбежен вывод, что нам, возможно… понадобится телесная реализация ИИ, и единственный способ создать компьютеры, способные трактовать сцены так же, как мы, – это позволить им получать все те годы (структурированного, упорядоченного во времени) опыта, которым располагаем мы сами, наделить их способностью взаимодействовать с миром и обеспечить волшебной архитектурой активного обучения и построения выводов, которую мне сложно даже вообразить, когда я начинаю думать обо всем, на что она должна быть способна.

В XVII веке философ Рене Декарт предположил, что наши тела и мысли состоят из разных субстанций и подчиняются разным законам физики[358]. С 1950-х годов основные подходы к ИИ неявным образом принимали тезис Декарта, полагая, что лишенные тел компьютеры можно наделить общим интеллектом. Но небольшая часть сообщества ИИ всегда продвигала так называемую гипотезу о воплощенном познании – утверждение, что машина не может развить интеллект человеческого уровня, не имея физического тела, которое взаимодействует с миром[359]. С этой точки зрения, стоящий на столе компьютер или растущий в резервуаре мозг не может усвоить концепции, необходимые для общего интеллекта. Лишь машина определенного типа – имеющая тело и активно взаимодействующая с миром – получит возможность развить интеллект человеческого уровня. Как и Карпатый, я не могу представить, какие открытия нам необходимо совершить, чтобы создать такую машину. Но, много лет работая с искусственным интеллектом, я нахожу гипотезу о необходимой телесности все более убедительной.

Глава 16