Pluribus: Нашествие машин продолжается

Покер-бот Pluribus

В 2017 году бот Libratus, созданный сотрудниками университета Карнеги-Меллона, обставил в хедз-апе нескольких лучших игроков планеты, что породило массу публикаций и слухов. Теперь покерный бот с искусственным интеллектом смог одержать убедительную победу в безлимитном холдеме за столом 6max. Победа над топовыми покеристами в 6max – очередной шаг в развитии искусственного интеллекта, поскольку при игре против пяти оппонентов переменных значительно больше, нежели в хедз-апе.

Ведущий разработчик проекта Туомас Сэндхольм назвал программу Pluribus настоящим прорывом. Искусственный интеллект не оставил «белковым» покеристам с мировым именем ни одного шанса на победу.

Игра с искусственным интеллектом

Pluribus против топ-профи

Туомас Сэндхольм и Ноам Браун описали в журнале «Science» два сценария, по которым проходила решающая битва между человечеством и роботами. В первом из них команде из пяти профессиональных игроков противостоял единственный бот Pluribus. Во втором игра велась между двумя живыми игроками и несколькими ботами, играющими каждый сам за себя.

В число профессионалов, игравших впятером против одного компьютера, входил Грег Мерсон, выигравший за свою карьеру 11 миллионов долларов на турнирах и победивший в Мэйн-Ивенте WSOP 2012. Однако после десяти тысяч раздач и 12 дней игры даже Грег не смог помочь человеческой команде победить Pluribus.

Тогда в дело вступили Крис Фергюсон и Даррен Элиас. За десять тысяч раздач лучшие покерные профессионалы сделали всё, что от них зависело. Но, к сожалению для человеческой сборной, даже их усилия не привели их к победе, хотя им и удалось продвинуться дальше, чем их предшественникам.

Список соперников Pluribus

  1. Грег Мерсон
  2. Даррен Элиас
  3. Джейк Туле
  4. Джейсон Лес
  5. Джимми Чау
  6. Донг Ким
  7. Дэниел МакОлей
  8. Крис Фергюсон
  9. Линус Лёлигер
  10. Майкл Гаглиано
  11. Ник Петранжело
  12. Сэт Дэйвис
  13. Тревор Севедж
  14. Шон Руане
  15. Энтони Грэг

Просим особо обратить внимание на имя Линуса Лёлигера (LLinusLLove), который считается одним из сильнейших, если не самым сильным игроком в этом формате. Однако с Pluribus абсолютно все соперники сыграли в минус.

Отзывы испытуемых о Pluribus

Крис Фергюсон

Pluribus — весьма сложный соперник. Очень трудно положить его на какую-то руку. Он прекрасно умеет делать тонкие вэлью-беты на ривере. Да и вообще превосходно собирает вэлью с сильных рук.

Джейсон Лес

Это просто монстр блефа. Он блефует гораздо эффективнее большинства людей. Именно поэтому с ним так сложно играть. На тебя непрестанно давят, хотя ты и понимаешь, что это может оказаться блефом.

Джимми Чау

Всякий раз, играя против ботов, я выношу для себя что-то новое. Люди стараются упростить игру, чтобы лучше её понять, эффективнее использовать стратегии, лучше запоминать информацию. Бот не позволяет себе такого. Его древо решений на каждую игровую ситуацию крайне сложное и сбалансированное.

3 признака гениальности Pluribus

  1. Pluribus смог одержать победу в игре с неполной информацией и несколькими соперниками.
  2. Его вычислительная мощность составляет всего 128 ГБ и два процессора, что не сильно отличается от домашнего компьютера.
  3. Полная самообучаемость. За стол садились 6 копий бота с загруженными в них правилам покера, и они обучили сами себя оптимальной игре. Кстати сказать, при игре с собственными копиями одна раздача занимает всего 20 секунд.

В итоге за 7 часов бот достиг уровня среднего любителя, за 20 встал на уровень «белковых» топ-игроков, а через 60 часов… перестал лимпить.

5 причин насторожиться

  1. В 2017 году Libratus нуждался в 100 процессорах. Теперь же Pluribus ограничивается двумя.
  2. Pluribus использует <128 Гб памяти, а значит, может работать на относительно недорогом облачном «облаке».
  3. В игре с несколькими соперниками у бота уходит в среднем 20 с, что вдвое меньше, чем среднему живому покеристу.
  4. Pluribus способен к самообучению. Задав ему правила безлимитного холдема, разработчики позволили своему детищу самостоятельно учиться и вырабатывать стратегию игры.
  5. Если в начале у бота есть оптимальный стратегический шаблон, то затем он может менять тактику, подстраиваясь к действиям оппонентов в режиме реального времени.

Зачем это делалось

Разумеется, только ради научного интереса. Ну, и достижения успехов в сферах человеческой деятельности, с покером никак не связанных. Представители Facebook уверяют, что не станут выкладывать программу в открытый доступ или продавать третьим лицам, иначе онлайн покер потеряет всякий смысл.

Однако покер в 6max-формате — прекрасная тренировочная площадка для решения ситуаций с неполной информацией и несколькими участниками. Разработки на основе Pluribus могут применяться в сфере кибербезопасности, против мошеннических схем, в поиске и удалении «вредного» контента, а также во многих других. По мнению создателей Pluribus, разработанные для покера способности могут пригодиться в сфере здравоохранения, финансов, кибербезопасности, против мошеннических схем, в поиске и удалении «вредного» контента.

Самообучаемый покер-бот

Перед сражением с несколькими живыми соперниками бот провел триллионы розыгрышей сам с собой. Используя метод интенсивного обучения, он достиг мастерства топовых профессионалов всего за 20 часов.

По словам Сэндхольма, способность бота побеждать нескольких соперников одновременно, превзошла все его ожидания. Хотя его прошлый проект Libratus показал, что компьютер способен одолеть человека при игре в покер, задача справиться с пятью сильнейшими профессионалами казалась почти непосильной. После двенадцати дней ставок и блефа все сомнения развеялись: искусственный интеллект может принимать сложные решения не только в игре, но и в реальном мире.

Почему Pluribus настолько эффективен

Технологический прорыв Pluribus произошёл благодаря качественному улучшению используемых алгоритмов. Прежним покер-ботам были необходимы суперкомпьютеры для обработки многочисленных вариантов завершения раздачи. В каждый момент бот анализировал её до самого конца, что занимало много времени и было почти невозможно при игре с несколькими игроками.

Pluribus

Теперь разработчики упростили анализ раздачи до сиюминутных решений. Основываясь на результатах триллионов ранее сыгранных раздач, Pluribus может понять, какой ход будет оптимальным в том или ином случае. Некоторые из миллиардов существующих в покере вариантов бот игнорирует, а схожие группирует, чтобы позднее ему было легче находить оптимальное.

Есть ли плюсы для игроков?

Поражение топовых профессионалов – тревожное событие для всех игроков в покер. Однако в нём есть и свои плюсы. В плане стратегии, Pluribus может вернуть в игру донк-бет. Этот прием часто критикуют опытные игроки, однако он может оказаться более эффективным, чем полагали. Во время состязаний Pluribus пользовался этим приёмом куда чаще живых игроков, хотя пока и неясно, почему он выбрал именно его.

Помимо этого, Pluribus снова подтвердил, что лимпинг – плохая стратегия. Поначалу, в процессе обучения, он ещё лимпил, но со временем сообразил, что рейзы и фолды гораздо эффективнее.

Пока что искусственный интеллект не может полностью вытеснить «белковых» игроков из покера. Однако ждать этого дня, возможно, осталось недолго. Эксперименты с Libratus в 2017 году показали, что безлимитный холдем искусственному интеллекту того времени не по зубам. Но спустя всего два года Pluribus доказал, что это уже не так.

Оставить комментарий