在数字化浪潮中,企业每天产生的视频数据呈爆炸式增长,但这些海量视频中,真正被有效利用的却少之又少。大量未被处理的视频数据如同沉睡的宝藏,被业界称为“暗数据”。如何将这些PB级的视频数据转化为有价值的数字资产,成为视频AI领域亟待攻克的新课题。
近日,一家专注于视频AI的初创公司InfiniMind宣布完成580万美元种子轮融资,为这一难题提供了新的解决方案。这家总部位于日本东京的公司由两位前谷歌员工创立,旨在通过构建创新基础设施,帮助企业无需编写代码即可将PB级闲置视频和音频资产转化为结构化数据,支持快速查询和分析,应用于监控、安全及内容深度分析等领域。
本轮融资由亚洲知名深度科技风投公司UTEC领投,CX2(Cox Exponential)、Headline Asia Ventures、Chiba Dojo以及一位来自a16z Scout的人工智能研究员参与跟投。这笔资金将用于加速Deepframe模型的开发、扩展PB级视频处理的工程基础设施、招聘工程师以及拓展日本和美国市场。
在互联网数据中,视频数据占比超过80%,但现有工具难以有效分析和利用这些数据。企业积累的视频素材包括数十年历史的广播节目存档、工厂全天候监控录像、零售监控视频以及无人机和卫星图像等。尽管云服务厂商能检测到人或车辆等目标,但仅限于简单标记,缺乏对上下文的理解。新一代视频AI模型虽能处理视频内容,但处理时长有限,开源方案也仅能应对数小时的视频,无法满足企业数天、数周甚至数年的视频分析需求。
InfiniMind联合创始人兼CEO Aza Kai表示:“在谷歌工作时,我们发现客户拥有PB级视频数据,却无法从中获取有效信息。他们提出的问题看似简单,却找不到答案。这促使我们思考如何整合视觉、音频和语音理解功能,将视频转化为结构化数据。”
InfiniMind的解决方案是通过构建视频理解基础设施,将视频转化为结构化企业数据。其技术能够关联不同事件,理解垂直行业中长视频内容的事件因果关系,将目标素材转化为可搜索、可操作的数据,形成可查询的知识库,支持企业商业智能工具的直接集成。
2025年4月,InfiniMind推出了首款AI引擎产品TVPulse。该产品利用AI分析技术,实现对海量电视广播数据的精确逐秒搜索,帮助媒体和零售公司追踪产品曝光度、品牌影响力、市场分析、竞品活动监测及风险管理等。目前,TVPulse已为批发商和媒体行业的付费企业客户提供服务,累计分析内容超过10万小时。
InfiniMind的旗舰产品Deepframe则专注于长视频理解,能够处理200小时的视频和音频素材,精确定位特定场景、演讲者或事件。该产品计划于今年3月进行测试,4月正式发布。与现有方法孤立分析片段不同,Deepframe以统一数据流方式处理视频、语音和环境音频,追踪长视频中的因果关系。例如,在安全事件场景中,它能检测完整叙事:谁进入现场、接触了什么、去了哪里以及最终发生了什么。
与TwelveLabs等提供通用视频分析API的公司不同,InfiniMind专注于企业部署,通过虚拟私有云(VPC)和本地部署满足数据主权要求,解决许多组织采用云端AI时的障碍。Deepframe还包含微调工厂,可生产多种行业专用模型,帮助客户在成本、精度和速度之间实现最优平衡。
InfiniMind的两位联合创始人Aza Kai和Hiraku Yanagita在谷歌有近10年的合作经验。Aza Kai拥有9年以上工程经验,曾从事数据科学、机器学习和云基础设施工作,设计大规模机器学习解决方案并领导亚太地区数据科学团队。Hiraku Yanagita则在谷歌日本拥有10年以上数字营销经验,专注于品牌和数据解决方案,为企业客户提供深入分析服务。
他们早在谷歌工作时便注意到技术发展的可能性。2021年至2023年,随着视觉语言模型的进步,视频AI开始超越简单物体标记。“过去10年,GPU成本下降和性能提升固然重要,但模型能力的提升才是关键。”Aza Kai表示。2024年,技术成熟且市场需求明确,两人决定创立InfiniMind(曾用名SDio),分别担任CEO和COO。目前,公司在东京有10余名员工,并与东京大学的研究合作者共同推进模型评估和视频理解基准测试。
凭借技术创新,InfiniMind入选了多个知名项目,包括AWS生成式人工智能加速器(GAIA 2025)、日本经济产业省的生成式人工智能挑战计划(GENIAC)、NVIDIA Inception计划以及Google for Startups云计划。公司计划将总部迁至美国,同时保留日本办公室,以进一步拓展全球市场。










