ITBear旗下自媒体矩阵:

初创公司Taalas押注极端专用化:3000万造AI芯片,推理速度远超GPU

   时间:2026-02-21 18:43:31 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

一家名为Taalas的芯片初创企业近日引发行业关注,其推出的首款推理芯片HC1通过将大语言模型直接“固化”至硅片,在性能与能效比上实现突破性进展。据测试数据,该芯片在单用户场景下输出速度可达每秒1.7万tokens,是当前市场最快竞品Cerebras的9倍,较英伟达Blackwell架构GPU快近50倍,同时构建成本仅为GPU方案的二十分之一,功耗降低一个数量级。

这款芯片的颠覆性设计源于对传统架构的彻底重构。HC1采用掩模只读存储器(Mask ROM)工艺,将meta Llama 3.1 8B模型的权重参数直接编码在芯片金属互连层,与计算逻辑单元共存于同一硅片。这种存算合一架构完全摒弃了外部DRAM或HBM,仅保留小容量SRAM用于存储键值缓存和低秩适配微调权重。通过极端简化设计,芯片面积控制在815平方毫米,单颗即可承载完整模型参数。

技术实现路径上,Taalas借鉴了结构化专用集成电路(ASIC)的定制化思路,但将专用化程度推向新高度。每次为新模型定制芯片时,仅需更换两层掩模即可完成模型权重编码与数据流路径调整。公司宣称从模型交付到生成寄存器传输级(RTL)设计仅需一周工程时间,完整流片周期可压缩至两个月。这种敏捷开发模式使得当特定模型在生产环境中验证有效且具备长期运行价值时,能快速为其定制专用芯片。

在针对DeepSeek R1 671B大模型的模拟测试中,30颗HC1芯片组成的系统展现出显著优势。该系统通过MXFP4量化格式与SRAM分离设计,实现每秒1.2万tokens/用户的输出速度,推理成本降至每百万tokens 7.6美分,不足GPU优化方案的半数。不过公司承认,当前3比特基础数据类型的激进量化策略会导致模型质量基准测试出现退化,第二代HC2平台将改用4比特浮点格式以改善性能。

这种将特定模型“硬编码”进芯片的设计面临显著风险。AI领域模型迭代速度迅猛,若芯片寿命周期内所绑定的模型被新技术淘汰,将造成巨大投资损失。公司管理层认为,随着行业成熟,部分关键业务场景中的模型会保持长期稳定性,这类客户对特定模型具有持续一年以上的使用承诺。目前团队正探索三种商业模式:自建推理服务基础设施、直接销售芯片,或与模型开发者合作定制专用硬件。

技术细节方面,HC1通过创新电路设计实现单个晶体管同时存储4比特参数并完成乘法运算,在全数字计算路径中达成高效存内计算。这种架构带来的副产品是软件栈的极端简化——公司仅需一名工程师维护基础软件系统,与传统GPU推理中复杂的vLLM、TensorRT-LLM等优化层形成鲜明对比。不过这种简化完全依赖于硬件专用化,不具备通用性扩展能力。

行业观察人士指出,Taalas的方案触及了被主流路线忽视的设计空间。当前GPU架构的计算单元与存储单元分离导致的“带宽墙”问题,是推理硬件的核心瓶颈。HC1通过将模型权重与计算逻辑同层集成,从根本上消除了数据搬运开销。但颠覆现有技术生态面临巨大挑战,英伟达GPU的统治地位不仅源于硬件性能,更依托完整的CUDA软件生态、开发工具链和庞大工程师社区。Taalas的专用芯片或许能在特定场景展现优势,但要成为主流替代方案仍需突破多重壁垒。

公司创始人Ljubisa Bajic曾是Tenstorrent联合创始人,在创立Taalas后选择与过往可编程AI加速器路线背道而驰。目前团队规模约25人,首款产品开发成本约3000万美元,累计融资超2亿美元。其产品副总裁Paresh Kharya强调,这种“模型最优硅片”不会取代大型GPU数据中心,而是为特定应用提供补充方案。在AI基础设施演进路径上,这场专用化与通用化的技术博弈仍在持续。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version