LLM шаховий турнір завершився: OpenAI o3 здобула перемогу, xAI Grok 4 не виграла жодної партії і була повністю закрита

Завершився міжнародний шаховий турнір Kaggle AI, де не спеціально підготовлений o3 з рахунком 4-0 повністю переміг Grok 4, продемонструвавши надзвичайну здатність до інтерпретації. (Передісторія: Маск погрожував позовом до Apple: у App Store існують монопольні дії, які навмисно пригнічують Grok) (Додаткова інформація: Grok 4 сьогодні став доступним для безкоштовного використання, Маск xAI та GPT-5 вступили в прямий конфлікт) Нещодавно Google у рамках Kaggle провів «Шаховий турнір з штучного інтелекту», результати якого оголосили 14 серпня. Загальний мовний модель o3 з рахунком 4:0 розгромив Grok 4 від xAI, ставши чемпіоном та першим LLM, який повністю переміг суперника без спеціальної підготовки. У змаганні брали участь 8 груп AI, тривалість – три дні, формат – елімінація. Основні моменти змагання мовних моделей Згідно з повідомленням OpenTools.ai, o3 протягом усього процесу просування до фіналу три рази поспіль показав результати 4:0, а в півфіналі вибив свого легкого конкурента o4 mini. У порівнянні, Grok 4 часто лідирував на початку, але на самому кінці змагання неодноразово «втратив» (пожертвував найсильнішою фігурою – королевою). Шаховий гросмейстер Хікару Накамура оцінив o3 як «з дуже малою кількістю помилок» і зазначив, що Grok 4 часто демонструє тактичну самознищення. Колишній чемпіон світу Магнус Карлсен описав стиль гри Grok: ніби дивитися, як грають діти. Він оцінив Elo Grok приблизно в 800, а o3 - близько 1200, що значно нижче рівня найкращих гравців або спеціалізованих шахових AI. Elo: професійна система оцінювання (англійською: Elo rating system), створена угорсько-американським фізиком Арпадом Ело, є методом оцінювання рівня різних ігрових активностей, визнаним авторитетним стандартом для оцінки рівня гри, і широко використовується в шахах, го, футболі, баскетболі та інших видах спорту. Найвищий бал Elo в шахах становить 2882 бали, встановлений Магнусом Карлсеном. Боротьба між універсальним AI та спеціалізованим AI Спеціалізовані системи, такі як Stockfish, покладаються на глибоке пошук та оцінку в цій галузі, довгостроково маючи приблизно 3644 Elo. Універсальні LLM, навпаки, вчаться на великих обсягах міждисциплінарних даних, де гра в шахи є лише продовженням їхньої інтерпретаційної здатності. Хоча o3 зміг перемогти Grok 4, раніше в цьому році він все ще програв Stockfish, що свідчить про те, що універсальні моделі все ще мають прогалини в стабільності та глибоких обчисленнях у шахових іграх. Пов'язані звіти Відважний OpenAI, Сунь Чженьцзі знову «перевернув ситуацію» Розробники Ethereum встановили «шкідливі AI плагіни», їх криптогаманець був очищений за три дні, навіть десяти років досвіду в інформаційній безпеці не допомогло a16z Останні висновки: традиційна електронна комерція мертва? AI-природні платформи переосмислюють «покупки» 〈Завершення LLM шахового турніру: OpenAI o3 став чемпіоном, xAI Grok 4 не виграв жодної партії та був повністю розгромлений〉 ця стаття вперше була опублікована в BlockTempo, найвпливовішому медіа-ресурсі про блокчейн.

XAI-8.69%
GROK-8.96%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити