📢 #Gate广场征文活动第二期# 正式启动!
分享你对 $ERA 项目的独特观点,推广ERA上线活动, 700 $ERA 等你来赢!
💰 奖励:
一等奖(1名): 100枚 $ERA
二等奖(5名): 每人 60 枚 $ERA
三等奖(10名): 每人 30 枚 $ERA
👉 参与方式:
1.在 Gate广场发布你对 ERA 项目的独到见解贴文
2.在贴文中添加标签: #Gate广场征文活动第二期# ,贴文字数不低于300字
3.将你的文章或观点同步到X,加上标签:Gate Square 和 ERA
4.征文内容涵盖但不限于以下创作方向:
ERA 项目亮点:作为区块链基础设施公司,ERA 拥有哪些核心优势?
ERA 代币经济模型:如何保障代币的长期价值及生态可持续发展?
参与并推广 Gate x Caldera (ERA) 生态周活动。点击查看活动详情:https://www.gate.com/announcements/article/46169。
欢迎围绕上述主题,或从其他独特视角提出您的见解与建议。
⚠️ 活动要求:
原创内容,至少 300 字, 重复或抄袭内容将被淘汰。
不得使用 #Gate广场征文活动第二期# 和 #ERA# 以外的任何标签。
每篇文章必须获得 至少3个互动,否则无法获得奖励
鼓励图文并茂、深度分析,观点独到。
⏰ 活动时间:2025年7月20日 17
英伟达发布 TensorRT-LLM,可将 H100 推理性能最高提升 8 倍
据 IT 之家 9 月 9 日报道,英伟达近日宣布推出名为 TensorRT-LLM,是一个深度优化的开源库,能够在 Hopper 等 AI GPU 上加速所有大语言模型的推理性能。英伟达目前已经和开源社区合作,利用 SmoothQuant、FlashAttention 和 fMHA 等尖端技术,实现 AI 内核来优化其 GPU,可以加速 GPT-3(175B),Llama Falcom(180B)和 Bloom 模型。
TensorRT-LLM 的亮点在于引入了名为 In-Flight batching 的调度方案,允许工作独立于其他任务进入和退出 GPU。该方案允许同一 GPU 在处理大型计算密集型请求时,动态处理多个较小的查询,提高 GPU 的处理性能,可以让 H100 的吞吐量加快 2 倍。
在性能测试中,英伟达以 A100 为基础,对比了 H100 以及启用 TensorRT-LLM 的 H100,在 GPT-J 6B 推理中,H100 推理性能比 A100 提升 4 倍,而启用 TensorRT-LLM 的 H100 性能是 A100 的 8 倍。