开云体育
开云体育DeepSeek一句话让国产芯片集体暴涨!背后的UE8M0 FP8到底是个啥
国产芯片企业股价也跟风上涨,比如寒武纪今日早盘盘中大涨近14%,总市值跃居科创板头名。
其成员阵容相当强大,国外还有微软、谷歌、亚马逊、AMD、英伟达等,而国内的阿里、腾讯、百度等也参与其中。
说回MXFP8,它以FP8为基础建立,FP8是把常规浮点格式压缩到8 bit的一种编码方式。
这种块级(而不是全张量级)的缩放,让MXFP8既保留了8 bit位宽,又把可用动态范围扩展了几十倍。
E和M则分别表示指数位和尾数位分配到的bit数,E8M0指的就是8个bit全都分配给了指数位。
其他常用的格式还有E4M3、E5M2(缩放引子外的本体部分也常采用这两种)等,它们均包含符号位,其余7个bit在指数和尾数位之间分配。
首先,由于UE8M0不含尾数与符号位,处理器在根据缩放因子对数据进行复原时,只需要乘以对应的2的幂,也就是移动一下指数位,而不需要浮点乘法、规格化或舍入逻辑,缩短了时钟关键路径。
并且UE8M0的动态范围覆盖2^(−127)到2^128,其指数表可轻松容纳这一跨度,为后续块缩放提供充足空间。
另外UE8M0还能解决单尺度FP8无法同时顾及大/小值,导致溢出或被压成0的问题,将UE8M0作为分块的尺度后,错误率曲线从整张曲线下降到一条远低水平的横线 bit张量精度的同时大幅减少信息损失。
UE8M0 FP8的好处我们了解了,现在可以解释为什么它更适配“下一代国产芯片”了。
大部分已量产的国产AI加速器仍沿用FP16/BF16 + INT8的计算通路,并未集成E4M3/E5M2这类完整的FP8乘加单元。
不过,摩尔线首发的新款国产芯片已经在宣传资料里列出“原生 FP8”或“Block FP8”支持,并与 DeepSeek、华为等15家厂商联合验证UE8M0格式。
虽然下一代国产芯片虽然已经在为FP8做出准备,但HBM/LPPDDR带宽仍然与顶尖芯片存在较大差距。
而UE8M0让一组32个FP8数据只追加8bit缩放引子,相比传统的4B(32bit) FP32缩放直接节省75%的流量,这种空间节约措施被视作下一代架构的重要优化方向。
在官方有意卖关子的情况下,人们只好首先把目光放在了首批通过“DeepSeek大模型适配”的8家厂商。
理由也很简单,该公司旗下的MLU370-S4、思元590及最新690系列芯片均支持FP8计算,在架构设计和低精度计算优化上一直相对比较领先。
而基于类似理由,海光、沐曦,中昊芯英甚至包括名单之外的摩尔线程等也都被网友们挨个点名:
虽然猜来猜去没有最终定论,但不妨碍市场给予热烈回应。根据最新消息,今日国产芯片概念集体高开,科创50大涨3%创近三年半新高,芯片产业链集体走强。
所以,大家为什么集体狂欢?这些国产芯片一旦支持UE8M0 FP8究竟意味着什么?
从另一方面来看,DeepSeek通过改动精度格式,相当于主动贴合国产芯片的最佳性能点,这种软硬协同的模式无疑是把国产芯片们拉进了一个统一的生态坐标系。
这就像当年的“Wintel联盟”一样——微软和英特尔通过深度技术绑定,筑起了个人计算机领域的生态护城河,只不过如今换成了DeepSeek和国产芯片厂商们。
所以你说它这个动作吧,不知道算无意还是刻意为之,总之是相当微妙了(手动狗头)。


2025-10-25
浏览次数:
次
返回列表