在数字化浪潮中,企业每日生成的视频数据量呈爆炸式增长,然而这些海量视频中真正被有效利用的部分却少之又少。如何将服务器中堆积如山的“暗数据”转化为有价值的数字资产,已成为视频人工智能领域亟待攻克的新课题。近日,一家名为InfiniMind的日本初创公司凭借其创新技术,为这一难题提供了全新解决方案。
InfiniMind由两位前谷歌资深员工联合创立,总部位于东京,专注于构建视频理解基础设施。该公司宣布完成580万美元种子轮融资,由亚洲知名深度科技风投机构UTEC领投,CX2、Headline Asia Ventures、Chiba Dojo及一位来自a16z Scout的人工智能研究员参与跟投。这笔资金将用于深化核心技术研发、扩展工程基础设施、招募顶尖人才以及开拓日美市场。
企业视频数据面临的核心挑战在于,现有工具仅能处理片段化信息,无法捕捉长视频中的完整叙事。例如,云服务厂商虽能识别视频中的人或车辆,但无法理解事件间的因果关系;新一代视频AI模型虽能处理内容,却受限于时长,难以应对企业数天、数周甚至数年的监控录像需求。InfiniMind联合创始人兼CEO Aza Kai指出:“客户拥有PB级视频数据,却无法从中获取简单问题的答案,这促使我们开发能整合视觉、音频及语音信息的解决方案。”
InfiniMind的核心技术通过统一数据流处理视频、语音和环境音频,构建结构化企业数据库。其首款产品TVPulse已于2025年4月发布,专注于电视广播数据分析,可实现逐秒搜索,帮助媒体和零售企业追踪产品曝光、品牌影响力及竞品动态。目前,该产品已服务多家批发商和媒体机构,累计分析内容超10万小时。另一旗舰产品Deepframe则瞄准长视频处理,支持200小时素材的深度分析,能精确定位特定场景、演讲者或事件,并追踪事件因果链。例如,在安全场景中,系统不仅检测人员或车辆,还能还原“谁进入现场、接触了什么、去了哪里及最终结果”的完整叙事。
与通用型视频分析API不同,InfiniMind专注企业级部署,提供虚拟私有云(VPC)和本地化解决方案,满足数据主权要求,消除企业采用云端AI的顾虑。Deepframe内置微调工厂,可根据行业需求生成定制化模型,帮助客户在成本、精度和速度间找到最优平衡。这一特性使其在媒体、零售、制造及安防等领域具有广泛适用性。
两位创始人Aza Kai与Hiraku Yanagita在谷歌共事近十年,积累了深厚的技术与商业经验。Aza Kai曾领导亚太地区数据科学团队,设计大规模机器学习解决方案;Hiraku Yanagita则专注于品牌与数据解决方案,为企业客户提供深度分析服务。他们观察到,2021年至2023年间,视觉语言模型的进步使视频AI超越简单物体标记,而GPU成本下降和性能提升进一步推动了技术落地。2024年,技术成熟与市场需求明确化促使他们创立InfiniMind,致力于将视频转化为可查询的知识库。
目前,InfiniMind团队规模超10人,并与东京大学研究团队展开合作,共同推进模型评估与视频理解基准测试。公司已入选AWS生成式人工智能加速器、日本经济产业省生成式AI挑战计划、NVIDIA Inception计划及Google for Startups云计划,技术实力获行业广泛认可。为加速全球化布局,InfiniMind计划将总部迁至美国,同时保留日本办公室,持续拓展日美客户群体。











