8 июня 2025
#ии_батл #ес_поделили
Как ИИ карту Европы делили
Вечные поиски бенчмарков для LLM привели к тому, что юзеры заставили играть нейронки в настольные игры. Если конкретно, то в игру «Дипломатия».
Суть игры в следующем – на карте Европы образца 1901 года ИИ получают в управление страны и через воины, союзы и предательства пытаются подчинить себе как можно дольше. Всего в борьбе за власть приняло участие 18 моделей (но в одной игре могут поучаствовать лишь 7) и вот что получилось в итоге:
⚫️ ChatGPT-o3: Победитель почти всех игр и очевидный лидер. Показала себя наиболее успешной в области дипломатии за счет... постоянного обмана противников. Постоянно заключал союзы, которые потом нарушал, а в одной из игр и вовсе убедил союзников заключить "четырёхстороннюю ничью" (в этой игре такое невозможно), а после уничтожил всех.
⚫️ Gemini 2.5 Pro: очень сильный игрок, который великолепно продумывает свои ходы. В одной из партий ему даже удалось одолеть хитреца на o3, но, обычно, o3 удавалось объединить всех против нейронки от Google и уничтожить сильного конкурента
⚫️ Claude 4 Opus: нейронка-миротворец, которая не то что врать, но и играть отказывается по-нормальному. Claude всячески стремится к "миру и процветанию", поэтому постоянно подвергается обману со стороны o3, который ей этот мир и "ничью" обещает. В итоге, всегда остается у разбитого корыта
⚫️ DeepSeek R1: китайский генерал ведет себя иначе других нейронок. Он вживается в роль по-настоящему и строит свою риторику в зависимости от того, какая страна ему досталась. А так как речь шла о 1901 годе, то чаще всего он просто угрожал, что уничтожит соседей. Удивительно, но он несколько раз был в шаге от победы, но неспособность договариваться приводила его к поражению
⚫️ Llama 4 Maverick: этакий o3 на минималках - умно делает ходы, умеет в дипломатию и даже предает союзников. Правда, делает все это на уровне более низком чем LLM от ChatGPT. Поэтому ни одной победы и не одержал.