华为发布AI推理创新技术UCM:实现高吞吐、低时延推理体验,降低每Token推理成本
新浪科技讯 8月12日下午消息,发布在2025金融AI推理应用落地与发展论坛上,推理吞吐n推华为联合中国银联共同发布AI推理创新技术UCM(推理记忆数据管理器),创新实现高吞吐、技术低时延的现高推理体验。
在当今数字化时代,低时低AI发展日新月异。延推验降大模型训练的理体理成热潮尚未消退,AI推理体验却已悄然成为AI应用的发布关键。中信建投在2025WAIC期间发布的推理吞吐n推白皮书指出,AI正从训练向推理的创新结构性转变而快速增长。在这样的技术大背景下,AI推理体验的现高重要性愈发凸显。
推理体验直接关系到用户与AI交互时的低时低感受,包括回答问题的延推验降时延、答案的准确度以及复杂上下文的推理能力等方面。资料显示,国外主流模型的单用户输出速度已进入200 Tokens/s区间(时延5ms),而我国普遍小于60Tokens/s(时延50 - 100ms),如何解决推理效率与用户体验的难题迫在眉睫。
据介绍,华为此次发布的AI推理创新技术UCM(推理记忆数据管理器),作为一款以KV Cache为中心的推理加速套件,其融合了多类型缓存加速算法工具,分级管理推理过程中产生的KV Cache记忆数据,扩大推理上下文窗口,以实现高吞吐、低时延的推理体验,降低每Token推理成本。

责任编辑:郭栩彤
(责任编辑:时尚)
推荐文章
-
原料:核桃、腰果、大杏仁、花生、白芝麻各适量。做法:1、各式坚果挑选好的,去杂质;放入没有油的干净炒锅中小火烤。2、拷至快干时,再加入白芝麻一起炒干烤熟。3、全部烤干后,取出放凉。4、将烤好的各式坚果 ...[详细]
-
主料:蘑菇200克配料:面粉30克、牛奶160克、黄油35克、蒜瓣2粒10克)、洋葱碎40克、淡奶油20克调料:盐、胡椒粉做法:1、准备所需材料。2、蘑菇一部分切片,另一部分切碎粒,洋葱切碎末备用。3 ...[详细]
-
续:青马课堂:安全骑马指南上)10.骑乘过程检查马具我们知道在骑马一段时间后,由于马匹运动以及排泄,马的腹围会有所收缩同时肚带会变松,所以隔段时间再次调整肚带是有必要的。如果缰绳等配件是合成革制成品也 ...[详细]
-
【独家签约小说:三国:开局继承了梁山】刘羽重生汉末,就遇到了官军杀良冒功,危急之时,最强山贼系统觉醒!开局梁山马军五虎将纷纷杀出,之后各路人杰皆入梁山。当皇帝太累,当人臣又怕遇不到好老板,那还是当个山 ...[详细]
-
最近有玩家发现,曾辍学贷款百万做游戏的UP主@次元边界_君制作的二次元赛博主题游戏《上传》Steam页面已清空,且B站账号显示为“账号已注销”。官方的最新动态为:“《上传upload playtest ...[详细]
-
2023年四川内江中考作文题目北京2022年冬奥会上,31岁的老将徐梦桃带着钢钉入场,凭借完美一跳夺冠,成就了个人职业生涯的“全满贯”。受伤病困扰的她,曾萌生退意,她“狠心”的父亲告诉她“不差这一步” ...[详细]
-
原料:香豆腐或北豆腐)1块,番茄酱1汤匙,白糖1小勺,酱油少许,香醋少许,食盐适量,白胡椒面1小勺,食用油适量。做法:1、豆腐切成厚约半厘米的片。2、锅中加适量油,油热后把豆腐放入煎制,火不宜太大。3 ...[详细]
-
小学六年级数学重点应用题及答案汇总来源:网络来源文章作者:奥数网编辑 2021-05-15 22:24:57 ...[详细]
-
It is undeniable that the worsening environment has become the biggest concern of the present-day wo ...[详细]
-
作为首届中国年青马大赛的主办方,第二届和第三届年青马赛事的指导监督和支持单位,中国马业协会给与了年青马赛事极大的支持和助力。同时中国马业协会在振兴种业、加快马匹育种创新等方面不断地探索和努力,致力于培 ...[详细]
热点阅读