Человек против машины

Основные отличия игровых стилей в игре Го

Автор: Руслан Холодов

ВВЕДЕНИЕ

Чем отличается игровой рисунок в партиях современных алгоритмов машинного обучения, или просто ботов, от традиционного человеческого игрового стиля?

Любой любитель Го без проблем ответит: боты любят вторгаться в сан-сан. И не любят старые фусэки и дзёсэки.

Однако на самом деле различий намного больше. Причем, не всегда очевидных.

Тому, в чем и насколько большая разница между игрой Го до и после революции нейронных сетей, и посвящен этот обзор.

Основой для сравнения служат две крупные игровые базы.

Первая, человеческая, состоит из 300.000 партий профессионалов и сильных любителей, сыгранных в период с января 1934 по февраль 2016 гг. То есть от исторической партии Го Сэйгэн - Хонинбо Сюсаи и до не менее исторического матча Ли Седоль - AlphaGo, полностью исключая влияние на игровой стиль человека ботов со сверхчеловеческой силой игры.

Вторая, ботовская, состоит из 1.800.000 партий селфплея всех лучших алгоритмов с открытым исходным кодом. Для анализа взяты 600.000 партий Leela Zero за 2018, 2019 и 2020 гг., 600.000 партий KataGo версий g65, g104 и g170 за 2019 и 2020 гг., 300.000 партий ELF OpenGo версий v0, v1 и v2 за 2018 и 2019 гг. и 300.000 партий MiniGo версий v15, v16 и v17 за 2019 год.

Эти 1,8 млн партий взяты из датасетов сильнейших моделей каждого алгоритма. При этом не стоит забывать, что за их обучением суммарно стоит более 170.000.000 тренировочных игр. Знания, накопленные в их файлах весов, получены из учебно-боевой практики небывалых масштабов. Это опыт, начисто лишенный давления традиций и привычки следовать моде.

Обобщив эти игровые базы, можно определить на крупной статистике, что из себя представляет классическое человеческое Го и чем отличается от него игра превосходящих в силе машин.

Получается своеобразный итог бурной 3-летней эволюции игры после появления общедоступных инструментов игрового анализа на основе ИИ.

ЧАСТЬ I. ОСНОВЫ ФУСЭКИ

Одной из фирменных особенностей человеческого стиля игры было активное раннее развитие на стороне. Будь то распространение вдоль своей стороны (хираки) или разделение стороны соперника (сплит).

На этой основе развился целый класс игровых начал, который можно назвать Хираки-фусэки: Санрэнсэй, Китай, мини- и микро-Китай.

Сравним активность игры на стороне у человека и машины:

1 - хираки от камня 4-4, 2 - хираки от камня 4-3, 3 - хираки от камня 3-4 (поперечный комоку), 4 - сплит по 3-й линии

Как видим, частота ранних развёртываний на стороне у ботов упала в 2-6 раз, а сплит-фусэки представляется едва заметным статистическим шумом в масштабах почти 2-миллионной выборки партий ИИ.

Способность ботов к выживанию в самом агрессивном окружении не оставляет нужды в масштабных заготовках для мойо или превентивной стратегии анти-мойо.

Немногим известно, что нейросети тоже играют на мойо. Но делают это ещё в “песочнице” ранних стадий селфплея, быстро находя слабости в подобных “дырявых” конструкциях и отказываясь от них.

Для большей наглядности добавим несколько иллюстраций.

Дисклеймер: увиденное ниже способно уязвить чувства любителей выстраивать заготовки на пол-доски.

На примере юного и безмозглого MiniGo проиллюстрируем, к какой стадии игрового развития на самом деле относится игра на мойо.

Однонаправленная стратегия на крупное территориальное образование, то есть мойо, это первое, что осваивает бот на выходе из режима случайных ходов. Это колыбелька, вырастая из который ИИ начинает учиться “ходить”.

Другой отличительной чертой человеческих игровых начал является выбор шаблонов на пол-доски (размещения первых двух камней одного цвета) с абсолютным приоритетом одного из камней в комоку.

Сравним статистику для шаблонов с чёрными камнями:

1 - Нирэнсэй, 2 - 4-4 + 4-3, 3 - 4-4 + 3-4, 4 - двойной 4-3, 5 - 4-3 + 3-4

Видим противоположную картину: лидерство Нирэнсэя с огромным отрывом у ботов и более чем двукратный отрыв человека от машины в том, что касается востребованности трёх основных шаблонов на пол-доски с участием камня в комоку.

Боты не стремятся определять позицию с самых первых ходов, поэтому “универсальный” шаблон с двумя камнями в хоси наигрывается ими чаще других.

Характерно выглядит и диспропорция шаблонов на всю доску.

Человечество наиграло в 20-м веке более-менее устойчивую дебютную теорию и выработало собственные стереотипы относительно направления развития игры. Поэтому, просматривая в 2015-м году партии Го Сэйгэна, сыгранные им в 1930-е, игроки видели всё те же знакомые Санрэнсэи, сплит-фусэки и ранние ходы на сторону в “большие” пункты.

Как бы в развитие его идей, непосредственно перед приходом AlphaGo произошел настоящий расцвет разновидностей Китая и фусэки Кобаяси.

Сравним, насколько совпадают шаблоны на всю доску:

1 - вторжения в сан-сан в пределах первых пяти ходов, 2 - доля топ-20 распространённых шаблонов на всю доску из 4-х камней, 3 - топ-10 фусэки людей, 4 - топ-10 фусэки AlphaGo Master (изначально обучена на партиях людей), 5 - топ-10 фусэки AlphaGo Zero

Результаты неудивительны. Люди не играли ранние вторжения в п. 3-3 и фусэки, востребованные AlphaGo Zero. Боты игнорируют 38% людской теории фусэки, воплощенной в пункте 3 на графике.

При этом разнообразие задействованных шаблонов на всю доску почти на 9% выше у ботов (график 2). Чего и следовало ожидать.

Очевидно, что в силу такого явления, как инерция мышления, человек склонен догматизировать свои знания и цепляться за “традиции” и “нормы”. Особенно это заметно на примере игр шахматного типа, где в начальной расстановке вообще запрещается менять фигуры местами.

ЧАСТЬ II. БОРЬБА В УГЛАХ

Го - это стратегия обретения глобального выигрыша, измеряемого в пунктах территории. Подходы к обеспечению территориального перевеса могут разниться у каждого игрока, но в целом человеческий “почерк” легко читаем. Смотрите сами:

1 - шимари от камня 4-4 за чёрных, 2 - за белых, 3 - шимари от камня 3-4 за чёрных, 4 - за белых, 5 - шимари от камня 3-3 за чёрных, 6 - за белых, 7 - защита одиночного камня 4-4, 8 - защита одиночного камня 3-4

Красные графики показывают просто колоссальные цифры: почти 50% на построение черного шимари от хоси, 65% на аналогичное белое шимари и почти 85% - на защиту одиночного камня в комоку.

Защита угловой территории - краеугольный камень человеческого Го.

Боты категорически с этим не согласны. Их статистика в полтора-два раза ниже. В их игре сэнтэ ценится намного выше, чем “гарантированная” безопасность отдельно взятого угла.

Атака угловых камней - непременный атрибут борьбы за территорию. С позиций человеческой теории игры наиболее востребованный способ прессования углов противника - это какари. Атакуя таким образом, игрок как бы одновременно гасит потенциально “опасную” плотность соперника, которая возникает при атаке угла путём вторжения в сан-сан.

Сравним статистику какари:

1 - какари чёрному камню 4-4, 2 - белому, 3 - какари чёрному камню 3-4, 4 - белому, 5 - какари чёрному камню 3-3, 6 - белому, 7 - двойное какари в целом

По всем статистически значимым показателям количество одиночных какари в партиях людей значительно выше.

Исключение из пункта 7 ярче всего подтверждает правило. Двойные какари - единственная категория, в которой твёрдое лидерство оказалось за ботами. И происходит это потому, что те какари, которые играются ботами, защищающаяся сторона часто игнорирует, реализуя сэнтэ в другом месте доски. Вследствие этого и возникают “клещи” из двойного какари.

А так ли уж злостно игнорирует? Существует способ прямой проверки помимо замера защиты угловой территории, произведенного выше. Речь о контратаках на какари с помощью такого вида клещей, как хасами.

Сравним контратакующие стратегии человека и машины:

1 - хасами от камня 4-4 после иккен-тоби какари, 2 - после кейма-какари, 3 - хасами от камня 3-4 после иккен-тоби какари, 4 - после кейма какари

Незамедлительная локальная контратака в углу с помощью хасами - ещё одна визитная карточка человеческого стиля игры. Его показатели здесь от полутора до пяти раз выше, чем у ботов.

Таким образом, очевидно, что с позиции машинного интеллекта сэнтэ важнее не только незамедлительной защиты угловой территории, но и чем немедленная контратака в ответ на агрессию противника в углу с помощью какари. Иными словами, какари в угловой борьбе - не повод строить игру вокруг него, как то делалось в традиционном человеческом Го.

Атаковать угол можно не только с дистанции, с помощью какари, но и прямым контактным способом - с помощью вторжения в сан-сан. Нельзя сказать, что в человеческом Го этот приём не находил применения, хотя и не практиковался в ранних стадиях игры (как раз по причине боязни отдать сопернику влияние для потенциально “опасного” мойо).

Однако же львиная доля таких вторжения была боязливой. Непрямой, с затратой темпа на поддержку промежуточным какари.

Сравним статистику:

1 - непрямые вторжения в 3-3, 2 - прямые вторжения в 3-3, 3 - продолжение 5. Ноби p4, 4 - 5. Ханэ p3, 5 - 5. Кейма о3, 6 - 5. Ханэ s3

Люди играли непрямые вторжения в полтора раза чаще ботов, а боты атакуют сан-сан противника напрямую чаще в одиннадцать раз.

Вторжение в сан-сан - это наиболее надёжный способ быстро получить верные очки. Это способ завязать контактный бой на самой ранней стадии игры, избегая неконкретных “балетных па” с ходами в большие пункты. Это возможность малым числом ходов построить жизнеспособную форму и реализовать сэнтэ на другом участке доски. При случае подороже “продать” свой угол. Или предложить головоломный розыгрыш с угрозой похоронить соперника в одной дзёсэке типа Летающего кинжала.

Вторжение в сан-сан у ботов - многофункциональное стратегическое оружие, перспектив которого мастера прошлого не оценили.

ЧАСТЬ III. ИГРА НА ДИСТАНЦИИ

Вопрос дистанции - один из ключевых в игре Го. В зависимости от того, насколько близко расположены камни, форма может считаться лёгкой или тяжелой, а следовательно, “хорошей” или “плохой”.

В теории и практике человеческого Го считалось, что мастера имеют исчерпывающее представление о том, какой баланс дистанции в формах позволяет делать лучшие ходы.

Проверим на статистике, делал ли человек эффективный выбор между борьбой или бегством:

1 - борьба: взаимные магари, 2 - борьба: взаимные стенки, 3 - бегство: линейное выпрыгивание через 1 пункт, 4 - бегство: линейное выпрыгивание через 2 пункта

База Go4Go не обманывает: при всякой сомнительной ситуации люди предпочитали скорее бежать. Число линейных выпрыгиваний в 2,5 - 3 раза превосходит показатели ИИ. Прямолинейные прыжки через всю доску - неотъемлемая фишка традиционного стиля игры. Что характерно, люди могли вытягивать до 5 камней в линию, для ботов 4 - уже явный перебор.

Боты не стесняются дать жесткий отпор и выстроить внушительную конструкцию, которую человек назвал бы слишком тяжелой или опасной с точки зрения потенциального влияния для игры на мойо. Ибо это работает.

Для того, чтобы максимально наглядно подчеркнуть кардинальную разницу игровых парадигм, проиллюстрируем её типичными партиями в исполнении людей и алгоритмов машинного обучения.

Начнём с “классики”. Типовое бесконтактное бегство через пол-доски:

Время вносило коррективы в человеческую моду на фусэки и дзёсэки, но суть игры на дистанции оставалась неизменной. Первого контакта камней во многих партиях приходилось ждать по 20-30 ходов.

В противовес прямолинейной и боязливой игре мастеров, боты отдают предпочтение ранней и предметной борьбе за каждый пункт потенциальной территории, ничуть не стесняясь “тяжелых” форм:

Негодование любителей “классики” несложно понять. Боты заставляют их отбросить привычную лайт-контактную “беготню” по доске и вступить в жесткое единоборство за каждое потенциальное очко с самого начала игры.

Это как после уроков фехтования записаться в секцию вольной борьбы.

Игра на дистанции также важна при атаке и защите угла. В теории Го человеческого периода существовало четкое и недвусмысленное мнение о том, на какое расстояние от углового камня можно “растянуть” шимари, а на какое этого делать не рекомендуется.

Сравним подходы человека и машины к данному вопросу:

1 - шимари от 4-4 через 1п. за чёрных, 2 - за белых, 3 - шимари от 3-4 через 1п. за чёрных, 4 - за белых, 5 - шимари от 4-4 через 2п. за чёрных, 6 - за белых, 7 - шимари от 3-4 через 2п. за чёрных, 8 - за белых

В человеческом Го налицо колоссальная диспропорция защиты угла в пользу шимари через 1 пункт. Самое востребованное из них встречается в человеческой базе в 23 раза чаще чем наименее популярное шимари через 2 пункта. Этот перекос почти в 2,5 раза превосходит аналогичный показатель у алгоритмов машинного обучения.

Боты выбирают шимари более сбалансировано и в целом играют его значительно реже за счет много меньшего числа шимари через 1 пункт.

Наконец, дистанция решает и при атаке угла с помощью какари. Выбирая, ставить камень через один или два пункта, игрок одновременно с этим определяет и степень эффективной агрессии, заложенной в его атаке.

Сравним дистанции атаки человека и машины:

1 - какари к чёрному 4-4 через 1 п., 2 - к белому через 1п., 3 - к чёрному 3-4 через 1п., 4 - к белому через 1п., 5 - к чёрному 4-4 через 2 п., 6 - к белому через 2п., 7 - к чёрному 3-4 через 2п., 8 - к белому через 2п

Да, люди атаковали угол соперника с помощью какари через 1 пункт значительно чаще ботов, но те всё равно не отказываются от этого приёма.

Однако когда дело доходит до какари через 2 п., реакция ИИ такова:

ИТОГИ

В этом материале рассмотрена лишь небольшая часть данных, которые были собраны с игровых баз. Но и этого достаточно для общей картины.

Подводя итог, перечислим недостатки традиционного Го до революции ботов. В чем “дореволюционное” Го слабее машинного? Какие слабости исправляют современные профи с помощью ИИ, чтобы усилить свою игру?

🔻 Люди “мельчили”, уделяли слишком много внимания локальной борьбе в углу;

🔻 Чрезмерно раздували эту часть игры, наигрывая избыточно сложную теорию дзёсэки;

🔻 Перестраховывались, защищая угловые камни в ущерб развитию инициативы (сэнтэ);

🔻 Сильно переоценивали потенциал игры на мойо, злоупотребляя неэффективными широкомасштабными заготовками и контр-стратегиями анти-мойо;

🔻 Атаковали углы боязливо и преимущественно бесконтактно;

🔻 При этом в атаке чересчур осторожничали и часто ставили камни слишком далеко, а в защите углов чрезмерно жались к себе;

🔻 Действовали слишком прямолинейно, злоупотребляя линейными прыжками по всей доске;

🔻 Необоснованно клеймили "тяжёлые" формы;

🔻 В целом недооценивали преимущества сэнтэ перед доигрыванием “по учебнику” на локальном участке гобана.

Существует универсальная отговорка сторонников “классики”: дескать, боты тупо пересчитывают людей большим числом плейаутов. Но это не так! Ката-бот с 1 плейаутом на ход достиг 8 дана на КГС.

Всё-таки дело не в том, сколько считают, а в том, как играют. Иначе боты предыдущего поколения, накручивавшие сотни тысяч симуляций в дереве поиска Монте-Карло, превзошли бы человека сразу после своего внедрения в 2006 году.