📢 Gate广场 #MBG任务挑战# 发帖赢大奖活动火热开启!
想要瓜分1,000枚MBG?现在就来参与,展示你的洞察与实操,成为MBG推广达人!
💰️ 本期将评选出20位优质发帖用户,每人可轻松获得50枚MBG!
如何参与:
1️⃣ 调研MBG项目
对MBG的基本面、社区治理、发展目标、代币经济模型等方面进行研究,分享你对项目的深度研究。
2️⃣ 参与并分享真实体验
参与MBG相关活动(包括CandyDrop、Launchpool或现货交易),并晒出你的参与截图、收益图或实用教程。可以是收益展示、简明易懂的新手攻略、小窍门,也可以是现货行情点位分析,内容详实优先。
3️⃣ 鼓励带新互动
如果你的帖子吸引到他人参与活动,或者有好友评论“已参与/已交易”,将大幅提升你的获奖概率!
MBG热门活动(帖文需附下列活动链接):
Gate第287期Launchpool:MBG — 质押ETH、MBG即可免费瓜分112,500 MBG,每小时领取奖励!参与攻略见公告:https://www.gate.com/announcements/article/46230
Gate CandyDrop第55期:CandyDrop x MBG — 通过首次交易、交易MBG、邀请好友注册交易即可分187,500 MBG!参与攻略见公告:https://www.gate.com/announcements
Patronus AI:光速美国领投300万美金,面向企业级市场,解决大模型安全问题
**来源:**SenseAI 深思圈
Sense 思考
我们尝试基于文章内容,提出更多发散性的推演和深思,欢迎交流。
▪ 企业级大模型应用痛点:transformer 自回归式对下文的预测实质是概率模型,对生成内容不确定性的评估是模型能力验证的关键。同时,学术型指标评估无法适配企业级领域应用,需要更产品化的多模型自动测评平台。
▪ 如何在生产内容中平衡准确性与不确定性,将 LLM 能力长板放大到业务需求场景,是模型测评平台以及企业级 Gen-AI 应用的艺术。
本篇正文共 2115 字,仔细阅读需大约 5 分钟
用户正在以前所未有的速度采用生成式 AI。ChatGPT 是有史以来增长最快的消费类产品:在发布的前两个月内就吸引了 1 亿多用户。今年,AI 一直是人们关注的焦点。但同时,企业在面对快速部署 AI 产品时表现出了谨慎的态度。他们担心大语言模型可能造成的错误。不幸的是,现阶段评估和检查语言模型的工作难以扩展且效率低下。Patronus 致力于改变这一现状,他们的使命是提高企业对生成式 AI 的信心。
Patronus AI 的创始背景
Patronus 两位创始人 Rebecca 和 Anand 认识将近 10 年。在芝加哥大学一起学习计算机科学后,Rebecca 加入 Meta AI(FAIR)负责 NLP 和 ALGN 相关研究,而 Anand 在 Meta Reality Labs 开发了早期的因果推断和实验基础。在 Meta,两人亲身经历了评估和解释机器学习输出的困难——Rebecca 从研究角度,Anand 从应用角度。
当 OpenAI CTO 米拉·穆拉蒂去年 11 月在 Twitter 上宣布 ChatGPT 发布时,Anand 在 5 分钟内就将消息转发给了 Rebecca。他们意识到这是一个转型时刻,企业肯定会快速将语言模型应用到各种场景中。因此,当 Anand 听说他哥哥就职的投资银行 Piper Sandler 禁止内部访问 OpenAI 时,他感到非常惊讶。在未来的几个月里,他们多次听到传统企业正非常谨慎地推进这项技术。
他们意识到,尽管 NLP 技术取得了重大进步,但离真正的企业应用还有很大差距。所有人都认同生成式 AI 非常有用,但没有人知道如何以正确的方式使用它。他们认识到,在未来几年,AI 评估和安全将成为最重要的问题。
团队与融资情况
Patronus 在 23 年 9 月 14 日宣布获得了来自 Lightspeed Venture Partners 的 300 万美元种子轮融资,Factorial Capital、Replit CEO Amjad Masad、Gokul Rajaram、Michael Callahan、Prasanna Gopalakrishnan、Suja Chandrasekaran 等也参与了投资。这些投资者在投资和运营企业安全和 AI 领域的标杆公司方面拥有丰富的经验。
Patronus 的创始团队来自顶尖的 ML(机器学习)应用和研究背景,包括 Facebook AI 研究院(FAIR)、Airbnb、Meta Reality Labs 和量化机构。他们在顶级 AI 会议上发表过 NLP 研究论文(NeurIPS、EMNLP、ACL),设计并推出了 Airbnb 的第一个会话式 AI 助手,在 Meta Reality Labs 开创了因果推断,退出了马克·库班支持的量化对冲基金,在快速增长创业公司退出了 0→1 产品。
Patronus 的顾问是 Contextual AI 的 CEO 和斯坦福大学的兼任教授 Douwe Kiela,他也是 HuggingFace 的前研究主管。Douwe 在 NLP 领域做出了开创性的研究,特别是在评估、基准测试和 RAG 方面。
Patronus AI 要解决的问题
当前的大语言模型评估不可扩展且效果欠佳,原因如下:
手动评估速度慢、成本高。大型企业需要花费数百万美元聘请成千上万的内部测试人员和外部顾问,以手动检查 AI 中的错误。要部署 AI 产品的工程师需要花费数周时间手动创建测试集和检查 AI 输出。
大语言模型的不确定性本质使预测故障变得困难。大语言模型是概率性系统。由于其输入范围不受限制(在上下文长度限制内),提供了广泛的攻击面。因此,发生故障的原因将非常复杂。
目前还没有标准的大语言模型测试框架。软件测试已经深度集成到了传统工程工作流中,有单元测试框架、大型质检团队和发布周期等,但企业还没有为大语言模型开发出类似的流程。连续、可扩展的评估、识别并记录大语言模型错误以及性能基准测试对于产品化使用大语言模型至关重要。
学术基准无法反映真实世界的情况。企业目前在学术基准(如 HELM、GLUE、SuperGLUE 等)上测试大语言模型,但这些基准无法反映真实的使用场景。学术基准趋于饱和,并存在训练数据泄露问题。
AI 失败的长尾现象非常严重,最后的 20%极具挑战性。对抗性攻击已经表明,大语言模型的安全问题远未解决。即使通用预训练语言模型展示了强大的基础能力,仍存在大量未知的失败情况。Patronus 在对抗模型评估和鲁棒性方面做了大量开创性的研究,但这只是开始。
Patronus AI 的使命
Patronus AI 的使命是提高企业对生成式 AI 的信心。
Patronus AI 是业内首个面向大语言模型的自动化评估和安全平台。客户使用 Patronus AI 大规模检测大语言模型错误,从而安全地部署 AI 产品。
该平台自动执行:
评分:评估实际场景中的模型性能和关键指标,如 hallucination 和安全性。
生成测试:自动生成大规模对抗测试集。
基准测试:比较模型,帮助客户确定特定用例的最佳模型。
Patronus 希望频繁评估以适应不断更新的模型、数据和用户需求。最终目标是获得一个可信度标识。没有公司希望看到他们的用户对意外的失败感到不满,甚至出现负面新闻并引发监管问题。
此外,Patronus 正在寻找值得信赖的第三方评估机构,用户需要一个无偏见的独立视角。Patronus 希望大家将其视为 AI 界的穆迪(Moody’s)。
目前 Patronus 的合作伙伴包括领先的 AI 公司 Cohere、Nomic 和 Naologic。此外,几家金融服务公司等知名的传统行业公司也在与 Patronus AI 洽谈进行试点。
Do not go gentle into that good night,
Rage,
rage against the dying of the light.
—— Dylan Thomas (1954)
参考资料