近年来,宣称要挑战英伟达在AI芯片领域霸主地位的公司层出不穷。近日,一家名为Taalas的加拿大初创芯片企业进入AI行业视野,其推出的首款产品HC1芯片引发了广泛关注,被认为有可能对英伟达主导多年的AI芯片市场格局产生影响。
Taalas成立于2023年,总部位于加拿大多伦多。当地时间2月20日,该公司发布了专为Llama 3.1 8B模型优化的HC1芯片。在采用30芯片集群时,该芯片可实现每秒12000 tokens的推理速度,相较于传统GPU方案,能效提升了50倍。Taalas宣称,通过结构化ASIC技术,公司将芯片定制周期大幅缩短至两个月,且已累计融资2.19亿美元。在24名员工的努力下,投入3000万美元打造出了这款具备“极致专业化、速度和能源效率”的产品。值得一提的是,Taalas的创始人兼CEO柳比沙·巴伊奇(Ljubiša Bajić)是曾任AMD架构师的业界知名人物。
在Taalas官网的介绍中,巴伊奇表示,这款芯片以meta公司2024年7月推出的开源大模型Llama 3.1 8B为运行平台,峰值推理速度接近17000 tokens/秒,比当前市场中最先进的技术快近10倍,构建成本降低至原来的1/20,功耗降低至原来的1/10。Taalas给出的测试数据显示,在Llama 3.1 8B模型上,英伟达的主力产品H200和B200的推理速度分别为230 tokens/秒和353 tokens/秒,而HC1的性能是它们的48倍。此前,独立分析平台Artificial Analysis测出最高值来自估值230亿美元、刚完成H轮融资的Cerebras,其推理速度为1981 tokens/秒,仅为HC1的11%。在实际演示中,大模型对用户问题的解答速度极快,甚至达到了“秒回”的水平,不过这种快速回复也让人产生了压迫感。
Taalas的惊艳表现引发了大量讨论,有人认为“颠覆将至”,也有人质疑其言过其实、过度营销。那么,Taalas的技术和产品究竟有何特别之处,是否真能担得起“世界上速度最快、成本和功耗最低的推理平台”这一自称呢?
深入研究HC1的相关公开信息后发现,Taalas的技术路线与目前市场主流的ASIC路线相比极具颠覆性。与英伟达和AMD代表的GPU通用计算技术路线不同,Taalas更接近ASIC路线。ASIC技术通过为特定应用场景定制硬件设计,追求极致的能效和成本效益。虽然其适用性、功能丰富度和可互换性远低于能覆盖多场景的GPU,但自去年以来,以谷歌TPU为首的ASIC技术凭借成本(TCO)低、打造大模型能力不逊色等特点,得到了市场认可,出货量大幅提升。野村证券预测,2026年ASIC芯片的总出货量可能会首次超过GPU。在GPU市场被两巨头垄断的情况下,大多数芯片初创公司都选择了ASIC路线,如市场知名度较高的Cerebras、SambaNova,以及核心团队被英伟达纳入囊中的Groq。
巴伊奇在AMD和英伟达都有任职经历,此前还创立了专注于AI芯片研发的独角兽企业Tenstorrent,该公司通过开源RISC - V架构和软硬件协同设计降低AI计算成本。“挑战英伟达垄断地位”一直是巴伊奇宣扬的核心理念,也是Tenstorrent备受关注的标签。然而,英伟达的发展远好于AMD及各类AI芯片初创公司,巴伊奇在探索中有了更“极端”的想法。2022年至2023年间,他逐渐脱离此前工作,开始筹划创办Taalas。Taalas的联合创始人还包括他的妻子莱拉·巴伊奇(Lejla Bajic,曾在AMD任系统工程高级经理)以及曾任AMD高级设计工程师并在Tenstorrent担任过ASIC设计总监的德拉贡·伊格纳托维奇(Drago Ignjatovic)。Taalas公司20余人的核心工程师团队多数来自AMD、苹果、谷歌、英伟达和Tenstorrent。2024年,Taalas完成5000万美元首轮融资后正式进入公众视野,截至目前已完成三轮融资,总额超过2亿美元。
巴伊奇强调,Taalas致力于解决AI发展面临的“高延迟”和“天文数字般的算力成本”两大障碍,并提出“单芯片性能超越小型GPU数据中心”这一极具野心的目标。Taalas奉行“The Model is The Computer”(模型即计算机,也是公司口号)的理念,即将传统“在计算设备上运行模型”的范式转变为“模型本身成为计算设备”。在技术实现路径上,Taalas提出“无需软件,直接将模型刻在芯片上”,这与传统ASIC芯片仍需使用软件通过编译过程将软件代码转化为芯片指令不同。Taalas通过EDA(电子设计自动化)流程,将特定大模型直接转化为定制芯片,这意味着每款使用Taalas的大模型都会拥有专属定制芯片,实现“完全专业化”。同时,算力摆脱了软件束缚和编译过程,数据几乎无需在内存和计算单元之间移动,“内存墙”消失,推理成本大幅降低,推理速度显著提升。目前,Taalas的主要业务操作流程较为简单,客户向其提供所需模型,Taalas在一周内将其转化为电路设计,通过台积电代工在两个月内交付专属芯片。
尽管Taalas前景看似美好,但在舆论热度转化为商用市场成果之前,仍有许多问题亟待解决。首先,其产品能否适用于更先进、大规模的模型是关键。2024年meta推出Llama 3.1时,有8B、70B和405B三种参数规模版本,Taalas选用的是最小的8B版本。在当前大模型进化速度快、规模越来越大的背景下,Taalas产品能否匹配以及是否面临明显“天花板”都是必须解决的问题。巴伊奇称公司将在今年春季推出一款适用中等规模推理模型的产品,其表现值得关注。其次,在测评体验中,不少质疑声音指出Taalas让本就不算聪明的Llama变得更“笨”了。一些用户发帖称,HC1“幻觉严重”“答案明显错误,质量远低于同参数GPU版”,“回答速度快但错得也快”,实用性不佳。对于Taalas给出的测试数据,也有较多质疑。有芯片产业爱好者认为,Taalas相当于内置了问题的答案,所以计算速度“秒杀”英伟达等业界翘楚,但若问题更换,其表现可能就会“掉链子”,即Taalas能在特定场景下“秒杀”英伟达,但目前英伟达能做的事对Taalas来说可能更难。更为关键的是,Taalas能否跟上大模型的迭代周期。半导体行业从业者表示,Taalas的芯片“表现很牛,但目前可能没啥大的用处”,因为大模型还在不停迭代,而Taalas的迭代能力和速度存疑,要等大模型达到某个层级不再大规模、快速迭代了,这种芯片才可能有更大舞台。社交平台上的讨论中,不少质疑集中在HC1“模型锁定”的“只读”模式导致的“过时”和“废弃”风险,认为这是其商业化、规模化的重大阻碍。目前,一款顶尖大模型能保持领先优势的时间窗口不过月余,而Taalas交付芯片(而非量产)至少需要两个月。
不过,支持HC1进步性的声音也不少。在知乎的相关讨论中,中国科学院计算技术研究所副研究员赵永威指出,虽然Taalas“目前的状况还没有应用价值”,但不妨碍它会成为“一颗有历史意义的芯片”。他认为这种“硬连线”的模式是未来芯片发展的一大趋势,目前的质疑由Taalas来扛,后来者在推广相关概念时就会更加轻松,他还透露自己所在单位也在研究类似技术路线,并提到降低经济成本既是研究目标,也应该是宣传发力点。知名科技记者蒂莫西·普里克特·摩根(Timothy Prickett Morgan)在文章中提到,Taalas确实需要在模型的每一次更新中重新设计芯片,但其在推理引擎上蚀刻新模型只需更改设计中的两层金属,而非完全废弃。考虑到训练模型的成本高达数十亿美元,Taalas芯片的更新成本微不足道。摩根认为,在主要模型发布间隔时间延长,人们对成熟模型依赖度增加时,Taalas芯片有望赢得更广泛的市场认可。也有分析称,得益于低延迟、低功耗的特性,Taalas真正的用武之地可能在于边缘推理场景,如机器人、自动驾驶汽车甚至高端智能手机等设备。这些设备不需要运行所有模型,只需稳定运行定制化模型,更快的速度和更低的消耗更有利于产业普及AI大模型。然而,即便相关产品能真正规模化进入市场并发挥作用,新的状况和问题也会随之出现,比如大模型的底层架构(Transformer)是否会遭遇另一场“革命”,这似乎决定着“模型即芯片”技术路线的命运,还有生态系统建设问题,英伟达虽是硬件公司,但CUDA软件生态和开发者的重度依赖才是其真正的护城河,这也是Taalas看中且有意颠覆的。目前,Taalas距离英伟达还很遥远,更不用说“颠覆英伟达”了,但巴伊奇仍在这条路上不断前行,Taalas宣布计划在今年冬季推出第二代HC2产品,将具备更快的执行速度和更强的性能,届时一代产品的市场反馈和二代产品的迭代效果将进一步验证各方对这股新势力的判断。









