这位学者特别批评了现有Tokenizer系统的缺陷。他举例说明,不同编码方式可能导致视觉上相同的字符在模型内部被表示为完全不同的标记,就连表情符号也会被简化为抽象标记而非视觉实体。这种处理方式不仅割裂了视觉信息,还继承了大量历史编码的冗余设计。
科技企业家Elon Musk的加入将讨论推向更高维度。他断言未来AI模型的输入输出将有超过99%采用光子形式,并从宇宙学角度给出解释:可观测宇宙中光子密度达每立方厘米410个,仅宇宙微波背景辐射贡献的光子数量就高达1.5×10⁸⁹个。这种数量级的绝对优势,使其成为最具扩展潜力的信息载体。
Musk进一步指出,恒星辐射等其他光源贡献的光子数量相比CMB完全可以忽略不计。这种物理层面的数量级差异,构成了他认为光子将主导AI未来发展的核心依据。这场跨越计算机视觉、自然语言处理和宇宙学的跨界讨论,正在重塑人们对AI信息处理范式的认知边界。