WAVES新浪潮2025：共探AI下半场，定义创投新纪元“好问题”

时间：2025-06-22 14:43:54 来源：36氪编辑：快讯团队 IP：北京 发表评论无障碍通道

WAVES新浪潮2025大会在杭州良渚文化艺术中心隆重举行，此次盛会以“新纪元”为主题，汇聚了创投领域的众多精英，共同探索中国创投市场的新篇章。大会期间，创投领域的顶级投资人、新锐企业创始人以及科技、创新、商业界的学者与创作者齐聚一堂，就AI技术革新、全球化浪潮与价值重估等前沿议题展开了深入探讨。

6月12日上午，红杉中国的投资人公元在创业者会场发表了一场引人深思的独立演讲，主题为“AI下半场：如何定义‘好问题’？”。公元的演讲围绕红杉中国最新推出的xbench基准测试展开，分享了背后的思考与探索。

公元首先展示了两组图表，揭示了AI上半场的一个显著问题：每当新的数据集和测试标准出现，大模型总能迅速达到顶尖水平（SOTA），随后便会有新的基准测试推出，再次促使大模型达到SOTA，形成了一个无限循环。这种趋势引发了深刻思考：当大模型都考满分时，是模型真正变聪明了，还是测试标准本身存在问题？

公元回顾了红杉中国在过去两年多时间里，对基准测试的三次迭代过程。从ChatGPT初现端倪时，红杉便意识到大模型可能是十年一遇的大浪潮，因此着手建立内部标准和工具，以实时观测模型发展，更好地指导投资。最初的基准测试包含简单的逻辑题和数学题，但很快就被大模型轻松破解。随着OpenAI等模型的进步，红杉不断升级测试难度，但大模型依然能够迅速适应，这促使红杉开始反思测试标准的有效性。

在第三次迭代时，红杉开始深入探索如何在AI下半场提出“好问题”。公元指出，过去的研究者往往陷入了一种惯性思维，即不断提高问题难度以测试模型能力。然而，这种惯性思维真的正确吗？模型越来越聪明，真的等同于具备投资价值吗？红杉开始反思模型能力与经济效用之间的关系，并致力于建立一套既能评估模型智能水平，又能评估其经济效用的标准。

公元进一步阐述了红杉在第三次迭代中的思考方向。他提到，AI模型的能力可以分为两部分：一部分是AGI track，评估模型的通用智能水平；另一部分是Profession-aligned track，评估模型在现实世界中的经济效用。例如，在search能力上，AGI track可能关注模型在复杂搜索任务上的表现，而Profession-aligned track则关注模型在猎头、市场运营等具体职业岗位上的应用效果。

红杉还致力于建立一套长青的评价体系，以解决不同时间维度和不同数据集上模型能力的比较问题。公元介绍了红杉采用IRT方法进行的数学建模和回归测试，通过调整分数曲线，使其能够真实反映模型能力的单调递增趋势。这一体系对于评估模型和Agent的长期发展具有重要意义。

在演讲的最后部分，公元提出了TMF（Technology-Match-Future）的概念，强调在评估模型和Agent能力时，需要关注其无限逼近人的能力，并根据能力发展阶段判断投资拐点和切入赛道的时机。他展示了xbench第一期的评估结果，并呼吁社区共建一套Agent的评估标准，以促进整个行业的发展。

公元的演讲引发了与会者的热烈讨论和思考，为WAVES新浪潮2025大会增添了一抹亮色。此次大会不仅是中国创投市场新纪元的起点，更是AI技术革新与价值重估的重要里程碑。

6月20日，有消息称，字节跳动创始人张一鸣目前主要办公地已从新加坡转到北京，从去年下半年开始，他每月会召集一次字节核心管理层和AI项目负责人的复盘和讨论会。视觉中国资料图知情人士向澎湃新闻记者表示，张一鸣…

林沅霖：我也从我产品的角度去讨论这个话题，因为我刚好是在做一个给Vibe Coder的开发者用的产品，拉回这个问题，这刚好是一个很好的例子，因为在ChatGPT刚出来的时候，到后来有各种各样的AI开发工具出…

近日，百度爱采购发布《B2B行业7天用好AI蓝皮书》，系统展现了AI技术与B2B商业场景深度融合的创新成果与实践经验，为商家提供了从商品创建到营销推广的全链路AI解决方案，助力企业降本增效，在激烈的市场竞争中…

近日，2025年上海市全民数字素养与技能提升月活动在普陀拉开帷幕，聚焦民生痛点，覆盖青少年、老年人和残疾人等群体，推出了80余项特色项目，旨在弥合数字鸿沟，让AI技术真正赋能社区治理与日常生活。刷脸进门、智…

人工智能、量子计算、新能源、航天这些高大上的领域，中国不光赶上了，还在某些地方开始领跑。更有意思的是，中国的AI模型很多是免费开放，搞得全球程序员都能用。有人还开玩笑，美国要是也“制裁”一下中国男足，说不定足…

生成式人工智能导演罗翀称：“最早接触AIGC（生成式人工智能）是2023年，先是在网上找教程看，后来甚至学了一个线下的培训班。罗翀说，虽然AI工具降低了普通人参与创作的门槛，但他认为专业的AI创作者要更懂…

新闻荐读马斯克发帖称：“我们将使用Grok 3.5（或许我们应该称其为4），它具备先进的推理能力，来重新编写人类知识的全部内容，补充缺失的信息并删除错误之处。然后就用这个数据集进行重新训练。任何基于未经修正…

在开幕式演讲中，华为云CEO张平安抛出一枚“智能炸弹”——正式发布CloudRobo具身智能平台，这意味着科技巨头华为正式杀入全球具身智能竞技场。当机器人学会“思考”和“协作”，一场颠覆工业的智能变革已按下…

来源：环球网据外媒，Meta近期在人工智能领域的人才与资源整合动作引发行业关注。这家科技巨头此前曾试图收购由OpenAI前首席科学家伊利亚联合创立的AI初创公司Safe Superintelligence，…

自变量机器人提出的统一模态架构源于一个核心洞察：真正的具身智能不应该是多个专门模块的协作，而应该像人类认知一样，在统一的计算框架内同时处理感知、推理和行动。注：以上三个视频，机器人需要在操作中实时输出推…

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.