Новая версия AlphaZero разгромила Stockfish в матче из 1,000 партий

Дата публикации: 07 декабря 2018

Просмотры: 1427

DeepMind, компания-разработчик искусственного интеллекта AlphaZero, ушедшая в тень на год после первой ошеломительной публикации в прошлом декабре, опубликовала потрясающий воображение отчет о новой версии своего проекта машинного обучения.

Все вопросы сняты: AlphaZero является самым сильным шахматистом мира.

Обновленная AlphaZero разгромила Stockfish 8 в новом матче из 1,000 партий со счетом +155 -6 =839.

AlphaZero также победила Stockfish в серии матчей с дачей форы по времени. Она выигрывала у обычной компьютерной программы, даже оставив себе в десять раз меньше времени на обдумывание.

В дополнительных матчах новая AlphaZero победила "последнюю разрабатываемую версию" Stockfish почти с тем же результатом, что и в матче со Stockfish 8. В окончательной версии статьи указано, что AlphaZero играла против последней разрабатываемой версии Stockfish на 13 января 2018, то есть, Stockfish 9.

Машинно обучаемая программа также выиграла все матчи у "варианта Stockfish, который, по сообщению DeepMind, использует сильную дебютную книгу". Дебютная книга помогла Stockfish, наконец, выиграть довольно много партий белыми—но этого было недостаточно, чтобы выиграть матч.

Результаты AlphaZero (победы зеленым, поражения красным) против последней версии Stockfish (вверху) и Stockfish с сильной дебютной книгой (внизу). Изображение предоставлено DeepMind и Science.

Отчет будет опубликован в статье издания Science, но он заранее был предоставлен избранным шахматным СМИ разработчиками из DeepMind, компании, работающей в Лондоне и принадлежащей Alphabet, холдингу, который владеет и Google.

Матч из 1,000 партий проводился в начале 2018 года. AlphaZero и Stockfish давалось по три часа на партию каждой с добавлением 15 секунд на ход. Выбранный контроль времени позволил отбросить в сторону один из самых веских доводов против значимости прошлогоднего матча: якобы, контроль времени по минуте на ход, применявшийся в 2017 году, был невыгоден для Stockfish.

Три часа на партию с добавлением 15 секунд не оставляют места для подобных споров. Это количество времени огромно для любого компьютерного движка. В партиях с форой по времени AlphaZero доминировала даже при соотношении времени 10-1. Stockfish добился преимущества в счете, только получив в 30 раз больше времени на обдумывание.

Результаты AlphaZero (победы зеленым, поражения красным) против Stockfish 8 в партиях с форой по времени. Изображение предоставлено DeepMind и Science.

Результаты AlphaZero в партиях с форой по времени свидетельствуют о том, что она не только играет намного сильнее любой традиционной шахматной программы, но и также ищет ходы намного более эффективным образом. По сообщению DeepMind, AlphaZero использует поиск по дереву Монте-Карло, изучая около 60,000 позиций в секунду в сравнении с 60 миллионами, которые оценивает Stockfish.

Поиск ходов программой AlphaZero. Изображение предоставлено DeepMind и Science.

К какому выводу могут прийти любители компьютерных шахмат на основании этих результатов? AlphaZero укрепила свой статус сильнейшего шахматиста в мире. Причем, все выглядит еще интереснее, если учесть, что искусственный интеллект умеет играть не только в шахматы.

Согласно статье, обновленный алгоритм AlphaZero одинаков для трех настольных игр: шахмат, сёги и го. Эта версия AlphaZero смогла победить сильнейших компьютерных противников во всех трех играх всего лишь через несколько часов самообучения, начав со знания базовых правил игры.

Обновленные результаты AlphaZero были опубликованы точно через год после того, как компания DeepMind опубликовала первый отчет о результате матча AlphaZero против Stockfish, навсегда изменившего мир шахмат.

С тех пор возник проект Lc0 на основе открытого кода, который попытался повторить успех AlphaZero и уже сумел восхитить болельщиков шахмат. Теперь Lc0 соревнуется наряду с чемпионом Stockfish и другими сильнейшими в мире движками.

Новая версия AlphaZero самостоятельно обучалась шахматам, начиная с правил игры в качестве отправной точки, с использованием техник машинного обучения для развития нейронной сети. По словам DeepMind, для создания первого массива партий для самообучения использовались 5,000 ТПУ, (тензорных процессоров - специализированных интегральных схем для работы искусственного интеллекта), потом тренировка нейросети продолжилась на 16 ТПУ.

Общее время обучения шахматам составляло девять часов с нуля. По словам DeepMind, новой AlphaZero потребовалось всего четыре часа, чтобы превзойти Stockfish, а через девять часов она была намного сильнее чемпиона мира среди компьютерных программ.

Для игры в матче Stockfish использовал 44 ядра ЦПУ (центральных процессоров), а AlphaZero один компьютер с четырьмя ТПУ и 44 ядрами ЦПУ. В распоряжении Stockfish был хэш размером 32ГБ и семифигурные эндшпильные таблицы.

Результаты партий AlphaZero против Stockfish в самых популярных среди людей дебютах. Слева результаты AlphaZero белыми, справа - черными. Изображения предоставлены DeepMind и Science. Нажмите для увеличения.

Профессиональные шахматисты, были впечатлены увиденными партиями. МГ Роберт Хесс назвал их "невероятно сложными".

Компания DeepMind так описывает стиль своего детища в статье:

"В некоторых партиях AlphaZero жертвовала фигуры в обмен на долговременный стратегический перевес, что позволяет сделать вывод, что ее позиционная оценка является более гибкой и контекстной, чем оценки, основанные на правилах, которые применяются шахматными программами прошлых поколений", - заявляют исследователи из DeepMind.

Компания-разработчик искусственного интеллекта подчеркивает важность того, что одна и та же версия AlphaZero использовалась для трех различных игр, назвав это прорывом в области игрового искусственного интеллекта:

"Эти результаты приближают нас еще на один шаг к выполнению долгосрочной задачи разработчиков искусственного интеллекта: созданию обобщенного игрового интеллекта, который может освоить любую игру", - говорят исследователи из DeepMind.

"Не могу сдержать радость от открытого, динамичного стиля AlphaZero. Это не совсем мой стиль, но это совсем не маловразумительное маневрирование, в которое, как мы боялись, превратятся компьютерные шахматы". - Гарри Каспаров, 6 декабря 2018.

Вы можете загрузить 20 избранных партий, опубликованных DeepMind первыми, с подготовленным анализом с помощью Stockfish 10 на мощном компьютере. Первые 10 были сыграны без дебютных книг, а вторые 10 с дебютной книгой, использовавшейся на TCEC (Top Chess Engine Championship) в 2016 году.

10 партий (без дебютной книги)

10 партий (с дебютной книгой TCEC 2016)

Примечание: Если вы стремитесь к резкому увеличению шахматного уровня, то необходимо систематически работать над всеми элементами игры:

Тактика
Позиционная игра
Атакующие навыки
Техника эндшпиля
Анализ классических игр
Психологическая подготовка
И еще многое другое

На первый взгляд кажется, что предстоит много работы. Но благодаря нашему учебному курсу Ваше обучение пройдёт легко, эффективно и с минимальными затратами времени. Присоединяйтесь к программе обучения «Шахматы. Перезагрузка за 21 День», прямо сейчас!

Понравилась статья? Поделись с друзьями: