LLM西洋棋赛落幕:OpenAI o3 夺冠,xAI Grok 4 没赢一盘被完封

Kaggle AI 国际西洋棋赛落幕,未经专门训练的 o3 以 4-0 完封击败 Grok 4,显现推理能力极强。 (前情提要:马斯克扬言提告苹果:App Store 排名存在垄断行为,恶意打压 Grok ) (背景补充:Grok 4 今开放免费使用,马斯克 xAI 与 GPT-5 正面交锋 ) 近日 Google 旗下 Kaggle 举办的「人工智慧西洋棋表演赛」8 月 14 日公布结果,OpenAI 通用大型语言模型 o3 以 4 : 0 横扫 xAI 的 Grok 4,夺下冠军,并成为首个在未经专门训练下完封对手的 LLM。 赛事共 8 组 AI 参与,为期三天,以淘汰赛决胜。 语言模型比赛看点 根据 OpenTools.ai 报导,o3 在一路晋级过程中连续三场交出 4 : 0 的完封成绩,准决赛更淘汰自家轻量版 o4 mini。 相较之下,Grok 4 常在早盘一度领先,却于赛事最末多次「丢后」(牺牲行动力最强的 Queen)。西洋棋特级大师 Hikaru Nakamura 评价 o3 「错误极少」,并指 Grok 4 常出现战术自爆。 前世界冠军 Magnus Carlsen 形容 Grok 的棋风: 像在看小孩下棋。 他估算 Grok 的 Elo 约 800,o3 约 1200,远低于顶尖人类或专精型棋类 AI。 Elo:一种专业分制度(英语:Elo rating system)是指由匈牙利裔美国物理学家Arpad Elo创建的一个衡量各类对弈活动水准的评价方法,是当今对弈水准评估公认的权威标准,且被广泛用于西洋棋、围棋、足球、篮球等运动。西洋棋 Elo 最高分数由 Magnus Carlsen 创下 2882 分。 通用型 AI 与专精型 AI 角力 Stockfish 这类专精型系统靠深度搜寻与领域评分,长期坐拥约 3644 Elo。通用型 LLM 则透过大规模跨领域语料学习,下棋仅是推理能力的延伸。虽然 o3 能击败 Grok 4,但今年稍早仍不敌 Stockfish,显示通用模型在棋艺游戏推理的稳定性与深度计算上仍有差距。 相关报导 豪赌 OpenAI,孙正义又「一把翻身」了 以太坊开发者安装「恶意 AI 插件」遭骇,加密钱包三天清空,十年资安经验也没用 a16z 最新洞察:传统电商已死?AI 原生平台正在重新定义「购物」这件事 〈LLM西洋棋赛落幕:OpenAI o3 夺冠,xAI Grok 4 没赢一盘被完封〉这篇文章最早发布于动区BlockTempo《动区动趋-最具影响力的区块链新闻媒体》。

XAI-10.37%
GROK-12.5%
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate APP
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)