华为发布AI推理创新技术UCM:实现高吞吐、低时延推理体验,降低每Token推理成本
新浪科技讯 8月12日下午消息,发布在2025金融AI推理应用落地与发展论坛上,推理吞吐n推华为联合中国银联共同发布AI推理创新技术UCM(推理记忆数据管理器),创新实现高吞吐、技术低时延的现高推理体验。
在当今数字化时代,低时低AI发展日新月异。延推验降大模型训练的理体理成热潮尚未消退,AI推理体验却已悄然成为AI应用的发布关键。中信建投在2025WAIC期间发布的推理吞吐n推白皮书指出,AI正从训练向推理的创新结构性转变而快速增长。在这样的技术大背景下,AI推理体验的现高重要性愈发凸显。
推理体验直接关系到用户与AI交互时的低时低感受,包括回答问题的延推验降时延、答案的准确度以及复杂上下文的推理能力等方面。资料显示,国外主流模型的单用户输出速度已进入200 Tokens/s区间(时延5ms),而我国普遍小于60Tokens/s(时延50 - 100ms),如何解决推理效率与用户体验的难题迫在眉睫。
据介绍,华为此次发布的AI推理创新技术UCM(推理记忆数据管理器),作为一款以KV Cache为中心的推理加速套件,其融合了多类型缓存加速算法工具,分级管理推理过程中产生的KV Cache记忆数据,扩大推理上下文窗口,以实现高吞吐、低时延的推理体验,降低每Token推理成本。

责任编辑:郭栩彤
(责任编辑:时尚)
推荐文章
-
中新网8月20日电 据湖北省纪委监委消息,十堰市人大常委会原党组成员夏树应涉嫌严重违纪违法,目前正接受湖北省纪委监委纪律审查和监察调查。 ...[详细]
-
文章来源:中国国际象棋协会8月11日,2025年中国国际象棋乙级联赛在黑龙江省大庆市昊方诺富特酒店圆满收官。经过九轮激烈争夺,江西省国际象棋协会队与杭州智力运动中等专业学校杭州智力运动学校)队成功晋级 ...[详细]
-
8月11日,南方网、粤学习记者从公安部网安局获悉,近日,山西晋中公安机关成功查处一起编造传播涉地震谣言案件。据了解,经查,杨某为博取眼球、吸引流量,在短视频平台发布一则某厂房损坏的画面视频,编造“太谷 ...[详细]
-
老师我想对您说我爱您。因为您用博大的胸襟包容关爱着年轻无知的我们。您太年轻了不大的眼睛却很有神总是闪着自信坚定的光小小的嘴里能发出响亮的声音干净利落的披肩发显出一股青春的气息。您太爱笑了每当你讲到一个 ...[详细]
-
简介: “牙疼不是病,疼起来要人命”,由此可见,牙齿平时的 ...[详细]
-
Ron Howard surprised by JD Vance's divisive political rhetoric
Facebook TwitterFlipboardCommentsPrintEmailGlenn Close tells 'The View' JD Vance, family ...[详细]
-
国产类魂游戏《无限机兵》于今日8月18日)发布免费更新。本作现打8折促销,原价159元,现在仅需127.7元,豪华版现在仅需166.4元。Steam商店页面:无限机兵本次更新新增了更高难度模式【半虚化 ...[详细]
-
材料: 带皮五花肉600克、白萝卜一根、八角大料)1-2个、桂皮1小块、姜3片克、香葱2根克、冰糖5粒、料酒1汤匙15ml)、老抽1汤匙、生抽1汤匙15ml)、盐1小匙做法:1、准备所需材料。2、盆中 ...[详细]
-
19世纪末期,美国探险家麦克在中国鲁南泰沂山脉的丛林深处,发现了一块上古时期神秘的黑色陨石。一百多年后,某大学探险社团成员在茂密森林度假,大二女生苏洛意外地发现了装在铅盒中的黑石,当她打开这个盒子时, ...[详细]
-
世上眼睛有千万双,最难忘的是老师的眼睛,人间的目光有无数种,最亲切的要数我敬爱的老师们有着太阳般的热情,也有着月亮般的温柔。世上有无数种微笑,老师的脸上盛开着"一朵朵"的微笑,满脸 ...[详细]
热点阅读