稳健,是 Gate 持续增长的核心动力。
真正的成长,不是顺风顺水,而是在市场低迷时依然坚定前行。我们或许能预判牛熊市的大致节奏,但绝无法精准预测它们何时到来。特别是在熊市周期,才真正考验一家交易所的实力。
Gate 今天发布了2025年第二季度的报告。作为内部人,看到这些数据我也挺惊喜的——用户规模突破3000万,现货交易量逆势环比增长14%,成为前十交易所中唯一实现双位数增长的平台,并且登顶全球第二大交易所;合约交易量屡创新高,全球化战略稳步推进。
更重要的是,稳健并不等于守成,而是在面临严峻市场的同时,还能持续创造新的增长空间。
欢迎阅读完整报告:https://www.gate.com/zh/announcements/article/46117
清华团队领衔打造,首个AI agent系统性基准测试问世
AI 智能体,或自主智能代理,不仅是诸如贾维斯等科幻电影中的人类超级助手,也一直是现实世界中 AI 领域的研究热点。尤其是以 GPT-4 为代表的 AI 大模型的出现,将 AI 智能体的概念推向了科技的最前沿。
在此前爆火的斯坦福“虚拟小镇”中,25 个 AI 智能体在虚拟小镇自由生长,举办了情人节派对;英伟达等提出的具身代理模型 Voyager,也在《我的世界》中学会各种生存技能,闯出了自己的一片天;此外,能够自主完成任务的 AutoGPT、BabyAGI 和 AgentGPT 等,也同样引发了公众的广泛兴趣和热烈讨论。
甚至,前特斯拉 AI 总监、回归 OpenAI 的技术大牛 Andrej Karpathy 在一次开发者活动上透露,每当有新的 AI 智能体论文出现时,OpenAI 内部就会非常感兴趣,并认真地进行讨论。
尽管当前 AI 智能体研究异常火热,但目前 AI 行业缺乏一个系统化和标准化的基准来评估 LLMs 作为代理的智能水平。
为此,来自清华大学、俄亥俄州立大学、加州大学伯克利分校的研究团队便提出了首个系统性的基准测试——AgentBench,用来评估 LLMs 作为智能体在各种真实世界挑战和 8 个不同环境中的表现(如推理和决策能力)。
相关研究论文以“AgentBench: uating LLMs as Agents”为题,已发表在预印本网站 arXiv 上。另外,相关数据集、环境和集成评估包也已发布在 GitHub 上。
首个系统性基准测试
在以往的研究和实践中,基于文本的游戏环境已被用于语言代理的评估。然而,它们往往由于封闭的离散行动空间而受到限制,且其重点主要集中在模型的常识基础能力上。
最近,一些关于具身代理的尝试采用了基于游戏、图形用户界面(GUI)和室内场景的复杂多模态模拟器。然而,尽管这些模拟器很复杂,不能准确地反映出 LLMs 在实际用例中的使用情况,且其多模态性质也给纯文本 LLMs 的快速评估带来了障碍。
此外,大多数代理的基准测试都集中在单一环境中,这限制了它们在不同应用场景中全面概述 LLMs 的能力。
在此次工作中,研究团队在**操作系统(OS)、数据库(DB)、知识图谱(KG)、卡牌对战(DCG)、情景猜谜(LTP)、家居(Alfworld)、网络购物(WebShop)和网页浏览(Mind2Web)**8 种不同的环境任务中,使用 AgentBench 对 25 个不同的语言模型(包括基于 API 的模型和开源模型)进行了全面评估。
测试结果显示,像 GPT-4 这样的顶尖模型能够处理各种各样的现实世界任务,而大多数开源 LLMs 在 AgentBench 中的表现远远不及基于 API 的 LLMs;甚至,最有能力的开源模型 openchat-13b-v3.2 也与 gpt-3.5-turbo 之间存在显著的性能差距。
研究团队表示,未来还需要更多的工作来进行更加严格、系统的评估,并提供强大的开源工具来促进此类评估,如不断完善 AgentBench,使其更加全面和包容,以及建立一个更为系统的 LLMs 评估体系等。
“自主”AI代理竞赛正在席卷硅谷
AI 大模型的不断进化催生了新型助手的诞生。当前,“自主”AI 代理的竞争激发了硅谷的热潮。不仅吸引了个人开发者,还有巨头公司如微软和谷歌母公司 Alphabet,以及众多初创企业也踊跃参与其中。
以初创公司 Inflection AI 为例,该公司的联合创始人 Reid Hoffman 和 Mustafa Suleyman 在播客中表示,他们正在开发一款个人助手,能够充当导师,也能够应对类似于安排航班积分和酒店等任务这样的事务。
MultiOn 公司开发者 Div Garg 表示,其目标是将其发展为个人的 AI 朋友,类似于虚拟助手“贾维斯”。他们希望这个代理能够与个人的服务进行连接。
Generally Intelligent CEO Kanjun Qiu 表示:“对人类来说很容易的事情,对计算机来说仍然非常困难,如为老板安排一组重要客户的会议。这需要非常复杂的推理能力,涉及到获取每个人的偏好,解决冲突,同时还需要在与客户合作时保持细致入微。”
Qiu 和其他四位代理开发者预测,第一批能够可靠地执行多步骤任务并具备一定自主能力的系统将在一年内上市,重点关注编码和营销等垂直领域。
微软 CEO Satya Nadella 曾在接受《金融时报》采访时表示:“无论是微软自家的 Cortana,还是亚马逊的 Alexa 、谷歌助手、苹果的 Siri,都还不够智能,未能达到最初的预期。”
**抛开存在的担忧不谈,AI 代理已经展现出了巨大潜力和市场。**虽然我们在探索和应用过程中可能会遇到一些挑战,但正如历史上许多创新一样,随着时间的推移,我们有望在不断优化和完善中见证这些 AI 代理为人类社会带来积极而深远的影响。