ИИ в покере: Сможет ли суперкомпьютер победить четырех профи?

16 сентября 2015, 15:50

Как отголосок победы суперкомпьютера Deep Blue в шахматном турнире над Гарри Каспаровым и Watson в викторине Jeopardy! в Университете Карнеги—Меллон была разработана программа для игры в покер, которая бросит вызов четырем лучшим профессиональным игрокам в покер в мире в соревновании «Brains Vs. Artificial Intelligence» 24 апреля в Rivers Casino.

ИИ в покере: Сможет ли суперкомпьютер победить четырех профи?

В течение двух недель компьютерная программа Claudico сыграла 20000 комбинаций один на один в безлимитный техасский холдем с каждым из четырех профи. Профессиональные игроки - Дуг Полк, Донг Ким, Бьорн Ли и Джейсон Лес - получили плату за участие из призового фонда в $100000, состоящего из средств, пожертвованных компаниями Microsoft Research и Rivers Casino.

Ученые из Университета Карнеги—Меллон соревновались за кое-что более ценное."Покер теперь является ориентиром для исследований, проводимых в сфере искусственного интеллекта, как когда-то были шахматы, — говорит Туомас Сэндхолм, профессор компьютерных наук в Университете Карнеги—Меллон, который контролировал разработку Claudico. — Это игра повышенной сложности, которая требует, чтобы машина принимала решения, основанные на неполной и часто вводящей в заблуждение информации, благодаря блефу, медленной игре и другим отвлекающим маневрам.

Чтобы победить, машина должна перехитрить своих умных людей-оппонентов. Вычисление лучших стратегий в мире для этой игры стало крупным достижением — данные алгоритмы могут в будущем применяться в бизнесе, военной, медицинской сферах и в области информационной безопасности".

Более ранняя версия компьютерной программы под названием Tartanian7 выиграла в категории один на один в игре безлимитный техасский холдем, которая проводилась в июле прошлого года Ассоциацией по улучшению ежегодных соревнований в компьютерном покере, однако Сэндхолм заявил, что это не означает равенство в игре компьютера и человека. Компьютеры показали, что могут выиграть у людей один на один в лимитированный техасский холдем, отметил он, но не в более сложной безлимитной версии.  

Туомас Сэндхолм, профессор компьютерных наук в Университете КарнегиМеллон, ведет разработку Claudico.

"Я думаю, что шансы Claudico выиграть составляют примерно 50 на 50, — сказал он. — Я считаю, что есть большая вероятность проигрыша".

"Полагаю, что люди имеют преимущество в данном случае, — говорит Полк, ссылаясь на нестандартную задачу для программирования безлимитной игры.  — Очень трудно определить исход с какой-либо долей уверенности, поскольку я не знаю, какая задача будет стоять передо мной".

Полк считается лучшим игроком в мире в безлимитный техасский холдем с совокупной прибылью от турниров более чем $3,6 млн. Ким, Ли и Лес также находятся среди 10 лучших в профессиональной игре — в основном, онлайн.

"Я буду менять стратегию чаще, чем играя против людей, — добавил Полк. — Думаю, будет меньше угадывания и манипулятивных техник. В некотором смысле это должно быть удобно, так как я могу сосредоточиться на более чистой игре и не нужно будет беспокоиться о том,  думает ли оппонент так же как и я, и т. д. Так что я с нетерпением жду матча".

Соревнование было организовано с целью гарантировать, что результат игры научно достоверен и не является удачей. В дополнение к большому количеству комбинаций игроки играли в парах дублирующие матчи - Игрок А получил те же карты, что и компьютер получил против Игрока B, и наоборот. Один из игроков-людей был изолирован, чтобы предотвратить сравнение карт. Тот же порядок применился к игрокам С и D.

Игра проходила в две сессии по 750 комбинаций в день. Соревнование продлилось 13 дней с перерывом в один день, чтобы игроки-люди могли отдохнуть.

Сэндхолм отметил, что такие игры, как покер, являются чрезвычайно трудными, потому что каждый игрок должен подмечать действия соперника, сигнализирующие о его картах, и также понимать, что его собственные действия дают подобные сигналы. Безлимитная игра, в которой игроки могут сделать ставку или рейз на любую сумму для всех своих фишек, добавляет еще больше сложности.

Безлимитный техасский холдем для двух игроков, по словам Сэндхолма, имеет 10161 (1 с последующими 161 зеро) ситуаций, или наборов данных, с которыми может столкнуться игрок, – это значительно больше, чем все атомы во вселенной. Напротив, облегченный вариант игры – лимитированный холдем, в котором ставки и повышения ограничены до заранее предопределенной суммы, имеет всего 1013 (1 с последующими 13 зеро) наборов данных.

Группа компьютеров, играющих в покер в университете Альберты, во главе с Майклом Боулингом, выпускником Университета Карнеги—Меллон, почти оптимально решила эту простую игру, согласно информации, опубликованной в журнале «Science».

Для решения более сложного безлимитного варинта игры Claudico был разработан с использованием алгоритмов, анализирующих основные правила игры в покер, чтобы разработать выигрышную стратегию, вместо того чтобы пытаться кодировать трюки и стратегии игроков-экспертов. "Claudico" в переводе с латыни — "лимп". Это метод ставки в покере, когда игрок уравнивает ставку оппонента вместо того, чтобы делать рейз. Люди, как правило, считают лимп плохой стратегией, но Claudico делает это.

"Профи могут обнаружить, что играть с Claudico – все равно, что играть с марсианином", — сказал Сэндхолм, отметив, что лимп является лишь одним из отличий игры компьютера.

Даже сокращенная версия безлимитной игры была так объемна, что потребовала использования суперкомпьютера Blacklight Питтсбургского суперкомпьютерного центра, чтобы вычислить стратегию Claudico. Blacklight имеет огромное количество оперативной памяти —16 триллионов байт, или примерно в 8000 раз больше, чем самые мощные планшеты. Хотя Claudico будет работать на компьютере Университета Карнеги—Меллон во время игры с профи, он будет использовать Blacklight во время мероприятия, чтобы постоянно улучшать свою стратегию.

Данный конкурс продолжает новаторское исследование Университета Карнеги—Меллон в области искусственного интеллекта, которое началось с создания первой программы ИИ, Logic Theorist, в 1956 году. Признанная школа компьютерных наук включает в себя первое в мире отделение машинного обучения, а также объединяет ведущих ученых мира в области вычислительной теории игр, структуры рынка, обработки естественного языка, машинного зрения, перевода речи, чтения мыслей и сотрудничества интеллектуальных агентов.

На протяжении 1970—1980-х гг. Ганс Берлинер, в то время старший научный сотрудник Университета Карнеги—Меллон, работал над серией машин, игравших в шахматы, в том числе Hitech, которая в 1985 году первой получила разряд гроссмейстера. В конце 80-х годов три аспиранта Университета Карнеги—Меллон (Фэн-сюн Хсу, Мюррей Кэмпбелл и Томас Анантараман) разработали более быструю машину для игры в шахматы — ChipTest. Когда IBM взяла на вооружение все три, ChipTest превратилась в Deep Blue, который наконец-то победил Каспарова в 1997 году.

Watson от IBM, который победил чемпионов викторины Jeopardy Брэда Руттера и Кена Дженнингса в 2011 году, воспользовался вкладом Эрика Ниберга и его учеников Института языковых технологий Школы компьютерных наук.

Источник: RoboHunter
Комментарии
Avatar

Нет комментариев

Наши партнеры