Giải cờ vua LLM đã kết thúc: OpenAI o3 giành chiến thắng, xAI Grok 4 không thắng một ván nào bị đánh bại hoàn toàn.

2025-08-14 07:45:49

Giải cờ vua quốc tế Kaggle AI đã kết thúc, và o3 chưa được đào tạo đã đánh bại Grok 4 4-0, thể hiện khả năng suy luận mạnh mẽ. (Tóm tắt nội dung: Musk đe dọa kiện Apple: Bảng xếp hạng App Store có hành vi độc quyền, đàn áp Ggrok một cách ác ý) (Bổ sung cơ bản: Grok 4 mở cửa sử dụng miễn phí hôm nay, Musk xAI và GPT-5 đối đầu) Mới đây, Kaggle của Google đã tổ chức "Trận đấu triển lãm cờ vua trí tuệ nhân tạo" công bố kết quả vào ngày 14/8, mô hình ngôn ngữ lớn đa năng OpenAI o3 đã càn quét Grok 4 của xAI với tỷ số 4:0 để giành chức vô địch, và trở thành LLM đầu tiên hoàn thành đối thủ mà không cần đào tạo đặc biệt. Tổng cộng có 8 đội AI tham gia sự kiện trong ba ngày và vòng loại trực tiếp đã được quyết định. Điểm nổi bật của cuộc thi mô hình ngôn ngữ Theo báo cáo của OpenTools.ai, O3 đã kết thúc 4:0 trong ba game liên tiếp trong quá trình tiến lên hết chặng đường, và loại O4 mini hạng nhẹ của chính mình ở bán kết. Ngược lại, Grok 4 thường dẫn trước ở một thời điểm trong set đầu, nhưng "thua" nhiều lần vào cuối sự kiện (hy sinh Nữ hoàng có thể hành động nhất). Đại kiện tướng cờ vua Hikaru Nakamura nhận xét rằng o3 có "rất ít lỗi" và chỉ ra rằng Grok 4 thường có khả năng tự kích nổ chiến thuật. Cựu vô địch thế giới Magnus Carlsen mô tả phong cách cờ vua của Grok giống như xem một đứa trẻ chơi cờ vua. Ông ước tính rằng Elo của Grok là khoảng 800 và O3 là khoảng 1200, thấp hơn nhiều so với AI cờ vua hoặc cờ vua chuyên dụng hàng đầu. Elo: Một hệ thống tính điểm chuyên nghiệp (tiếng Anh: Elo rating system) đề cập đến một phương pháp đánh giá được tạo ra bởi nhà vật lý người Mỹ gốc Hungary Arpad Elo để đo lường mức độ của các hoạt động trò chơi khác nhau, đây là tiêu chuẩn có thẩm quyền được công nhận để đánh giá trình độ trò chơi ngày nay và được sử dụng rộng rãi trong cờ vua, cờ vây, bóng đá, bóng rổ và các môn thể thao khác. Điểm số cao nhất cho Chess Elo được thiết lập bởi Magnus Carlsen với 2882 điểm. AI đa năng vật lộn với AI chuyên dụng Các hệ thống chuyên biệt như Stockfish từ lâu đã nắm giữ khoảng 3644 Elo dựa trên tìm kiếm sâu và chấm điểm tên miền. LLM đa năng học thông qua kho dữ liệu đa miền quy mô lớn và chơi cờ vua chỉ là một phần mở rộng của khả năng suy luận. Mặc dù o3 đã có thể đánh bại Grok 4 nhưng nó vẫn thua Stockfish vào đầu năm nay, cho thấy mô hình chung vẫn còn khoảng cách về độ ổn định và chiều sâu suy luận trong các ván cờ. Các báo cáo liên quan Đánh bạc trên OpenAI, Son Masayoshi "lật mặt" một lần nữa Các nhà phát triển Ethereum cài đặt "plugin AI độc hại" bị tấn công, ví được mã hóa bị làm trống trong ba ngày và mười năm kinh nghiệm bảo mật thông tin là vô dụng a16z Thông tin chi tiết mới nhất: thương mại điện tử truyền thống đã chết? Các nền tảng gốc AI đang định nghĩa lại vấn đề "mua sắm" "Giải cờ vua LLM kết thúc: OpenAI o3 thắng, xAI Grok 4 đóng cửa mà không thắng" Bài viết này được xuất bản lần đầu tiên trong "Xu hướng động - Phương tiện truyền thông tin tức Blockchain có ảnh hưởng nhất" của BlockTempo.

XAI-8.69%

GROK-8.96%

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Chia sẻ

Bình luận

0/400

Không có bình luận

Chủ đề
#Gate Releases August Reserves Report
7k Phổ biến
#BTC Hits New ATH
94k Phổ biến
#Show My Alpha Points
124k Phổ biến
#ETH Countdown To A New High
6k Phổ biến
#Circle Launches ARC
4k Phổ biến

Ghim

sơ đồ trang web