ITBear旗下自媒体矩阵:

UE8M0 FP8:国产芯片新风口?

   时间:2025-08-25 07:42:43 来源:华尔街见闻官方编辑:快讯团队 IP:北京 发表评论无障碍通道
 

在AI领域的一次重大发布中,DeepSeek V3.1版本悄然引发了一场行业震动。这并非因为其新功能有多么繁多,而是官方发布中的一条简短留言,让整个行业沸腾。

这条留言透露出两个关键词:“新的架构”与“下一代国产芯片”,尽管字数寥寥,却仿佛打开了一扇通往未来的大门。

市场反应迅速,国产芯片企业的股价随之飙升。其中,寒武纪的股价在发布当日早盘便大涨近14%,午后更是一举涨停,总市值跃升至科创板首位。半导体ETF同样不甘示弱,半日内涨幅达到5.89%。

一时间,关于“下一代国产芯片”的讨论不绝于耳。UE8M0 FP8,这个陌生的名词,成为了众人关注的焦点。那么,它究竟是什么?与下一代国产芯片又有何关联?

UE8M0 FP8,这个术语可以拆分为两部分理解。UE8M0代表MXFP8路径中的“缩放因子”,而MXFP8则是Open Compute Project在2023年发布的一种8位微缩块格式。它以FP8为基础,通过一种特殊的编码方式,将常规的浮点格式压缩到8位。

MXFP8的核心思想在于,先将张量切割成固定长度的“块”,然后为每个块指定一个2的整数次幂作为缩放因子。块内的所有数都会除以这个系数后再写成FP8格式。这种方式既保留了8位的位宽,又将可用动态范围扩展了几十倍。

而UE8M0中的“缩放因子”同样包含8位,其中包括符号位、指数位和尾数位。开发者可以根据需求,自行分配这8位给这三种不同的位。UE8M0中的U表示无符号,E和M则分别代表指数位和尾数位的位数分配。E8M0即表示8位全部用于指数位。

采用这种全指数表示缩放因子的方式,好处显而易见。由于UE8M0不含尾数与符号位,处理器在复原数据时,只需进行简单的指数位移操作,无需浮点乘法、规格化或舍入逻辑,从而大大缩短了时钟关键路径。

那么,UE8M0 FP8为何更适配“下一代国产芯片”呢?原因在于,大部分已量产的国产AI加速器仍沿用FP16/BF16 + INT8的计算通路,并未集成完整的FP8乘加单元。然而,一些即将在2025年下半年首发的新款国产芯片,如摩尔线程的MUSA 3.1 GPU、芯原的VIP9000 NPU等,已经在宣传资料中列出了对“原生 FP8”或“Block FP8”的支持,并与DeepSeek等厂商联合验证了UE8M0格式。

尽管下一代国产芯片在HBM/LPDDR带宽上仍存在差距,但UE8M0通过仅为一组32个FP8数据追加8位缩放引子,相比传统的4字节(32位)FP32缩放,直接节省了75%的流量。这种空间节约措施被视为下一代架构的重要优化方向。

随着DeepSeek V3.1的发布,网友们纷纷猜测,DeepSeek所指的“下一代国产芯片”究竟是哪一家。在官方有意保持神秘的情况下,人们首先将目光聚焦在了首批通过“DeepSeek大模型适配”的8家厂商上。其中,寒武纪因其旗下芯片支持FP8计算,且在架构设计和低精度计算优化上领先,被视为“头号种子选手”。

海光、沐曦、中昊芯英以及摩尔线程等厂商也被网友们提及。这些厂商或已发布支持FP8精度计算的芯片,或在官方路线图中明确了原生FP8的推出时间。

市场的热烈回应无疑证明了这一点。在DeepSeek V3.1发布后,国产芯片概念集体高开,科创50指数大涨8.5%,创下近三年半的新高。芯片产业链整体走强,国产AI正逐步走向软硬协同阶段,实质性减少对国外算力的依赖。

UE8M0 FP8格式的引入,不仅提升了国产芯片的性价比,还促进了软硬件的深度融合。这种软硬协同的模式,为国产芯片厂商提供了一个统一的生态坐标系,有助于他们在竞争中占据更有利的地位。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version