“整个上半年,我和团队都处于一种比较兴奋的状态,整个行业亦是如此。大家能明显感觉到行业在加速,各种新的工程落地方式和方法层出不穷,令人振奋。”奇点灵智创始人、CEO 包塔告诉多知。
作为清华人工智能实验室研究骨干出身的技术型 CEO,他近期也高频地使用大模型进行代码重构与系统验证。“两年前我们说‘奇点灵智’这个名字,听起来像个预言家。但今天,大家已经真正站到了浪潮里。你不顺着浪翻上去,就会被浪卷走。”
这家由三位清华爸爸创办的 AI 硬件公司,正在 Vibe Coding (全自动编程)和 Agentic 架构的推动下快速迭代。团队透露,多奇 AI 小外教即将迎来一次大版本升级,从“AI+硬件”迈向“自进化智能体”,这是一次断代式的跃迁。
奇点灵智成立于 2023 年秋。在产品正式面世前的两年里,这支清华团队探索出一套独特的验证路径:为了避免硬件开模带来的高昂试错成本,他们采用“软硬倒置”的原型测试法,将电子元器件植入掏空的毛绒玩具熊中,拼装出第一代原型机并送入真实家庭。此后,这只“小破熊”历经多轮 Alpha 与 Beta 迭代,通过 500 多个家庭的持续反馈,团队提前跑通了“虚实结合”的物理多模态交互玩法,并验证了儿童长期使用的留存效果。
当产品形态与用户需求在真实反馈中完成闭环后,奇点灵智将这套经过市场验证的能力正式推向商业化阶段。今年1月,多奇AI小外教机器人正式开售。上线仅5个月,在线上线下渠道共同推进下,累计订单量已突破2万台。
“与市面上泛娱乐、纯聊天的 AI 单品不同,多奇的功能定位绝非简单的陪聊玩具,而是重决策的教育启蒙新物种。家长需要深度理解产品的长期价值,才可能建立信任。”在包塔看来,增长的底层动力来自全渠道的协同,同时,团队针对落地挑战,想出因地制宜的解法。
“比如为了让消费者在购买前 get 到产品特色,我们量身定制了‘卖场模式’:多奇在店里不是死板的陈列,而是实时用摄像头看懂路过的孩子并主动‘吆喝’;甚至允许家长随手掏出任意一本书让它现场演示绘本阅读。这种‘体验倒置’让用户能秒懂新一代 AI 能力的代际价值差异,Aha Moment 在店里就已经完成了。”
即将发布的新版本背后,是一套全新的底层操作系统 Duoki OS(多奇 OS)。通过引入智能体架构,多奇被赋予了“大脑”和“记忆”,能够自主调度它的每一个“身体器官”,将底层硬件能力彻底“乐高化拆解”并重新打通。
这就意味着,升级后的多奇不再是“出厂即固化”的传统硬件,而是一个可以自我进化的“赛博书童”。包塔介绍,这次升级相当于把 Vibe Coding直接带进了家庭,让“人人都是开发者”真正落地——家长和孩子只需一句简单的语音指令,系统就能现场实时生成开箱即用的个性化轻应用。
这位技术型 CEO 用了一个极具烟火气的比喻:“这轮 AGI 浪潮带来的能力,就像是人类新发现的火种。但对家庭用户来说,火种没法直接用来做饭,家长没能力改 bug。奇点灵智做的事情,是在桌面上搭建了一座‘智能灶台’。我们把安全的控制阀门、底层的复杂技术,全部收敛在底座里。家长们只需轻松‘点菜’,系统就能按需定制烹饪;甚至能在第二天自己研究出一道你家孩子可能爱吃的新菜。”
不过,他同样强调,多奇 AI 小外教机器人“英语启蒙”的主线不会改变,他们想先把这个小切口做深做透。
01 新需求的增长总是快于功能更新节奏
“今天多奇一开机就弹升级,孩子才三岁根本等不了,直接跑去玩积木。而且,带娃读英语绘本,你们为啥不能先用英文连续读三遍原句,再换成中文把新词展开讲讲?”
这是一位妈妈给多奇产品经理的微信留言。
当一款硬件开始在成千上万个家庭里高频运转,它一成不变的功能边界,很难装下千家万户不同的教育解法了。
但在刚开售的几个月里,多奇团队并没有料到用户的卷入度会如此高频。产品早期的各项核心指标均超出了预期:孩子们平均每天使用约 30~40 分钟,一些孩子用了两周后,开口说英语的次数甚至超过过去半年。这种角色扮演和过家家式的互动,在让孩子建立共同经历的同时,也拉升了和机器人聊天的意愿。
面对家长们提出的英文沉浸或指读模式,团队当时的做法是拼人头、全速迭代,用一个月的时间硬生生把这些功能熬了出来。但很快,团队发现这远远不够,新需求的涌现速度完全超过了功能更新的节奏。
包塔由此总结道,儿童教育天然是一个极其长尾的市场。如果说K12阶段的需求相对集中(如提分、刷题),那么低龄儿童的需求则高度碎片化——学习、阅读、游戏、习惯养成、情绪陪伴,每个家庭都有独特的组合方式。
第一股力量来自家长高度定制化的教学期待。 统一的产品流程在被各种专业流派教育过的家长面前,容易陷入“众口难调”的困境。有人要全英文沉浸,有人要中英互译,有人甚至要求精确到“连读三遍再换中文展开”。这种具体的诉求,让团队撞上了传统硬件开发中无法打破的“不可能三角”:受限于极简的物理界面与沉重的固件发版周期,核心功能很难在追求高覆盖广度的同时,又完美适配单个家庭极其细腻的个性化深度。
第二股力量来自孩子们天马行空的交互。 让团队意外的是,有些孩子在短短两三个月内,就将配套游戏书里预设的场景全部玩遍了。在传统的固定开发模式下,内容消耗永远快于团队的生产。更重要的是,当小朋友真正把多奇当成亲密小伙伴、开始打破规则自创玩法并要求机器人配合时,行业传统那种事先写死的交互逻辑,很难完全跟上孩子不按套路出牌的脑洞。
“如果继续沿用‘产品提需求-研发写死代码-按月大包发版’的老逻辑,大模型进化得那么快,天天加班也只能在细枝末节里打转,跟不上不断拉长的需求池。”包塔直言,“要想打破这个死结,就必须打破机器出厂时被定死的框框,把怎么玩的权利彻底交还给用户。”
然而,在一个连开关都极简的儿童机器人身上,普通用户既不会写代码,也没有开发者工具。如果说两年前靠“软硬倒置”的破局巧思,曾让这支清华团队庆幸绕过了传统硬件的开模生死线;那么如今,面对千家万户每天都在涌现的碎片化需求,他们面对的,是硬件行业更普遍、也更难解的个性化死结。
这一次,他们必须再找出一条新路。
02 新范式:儿童硬件的AI原生化
新一轮AI技术,给奇点灵智团队带来了新的方向。
过去两年,大模型已经能够生成内容,但今年发生的变化是,它开始具备“生成能力本身的能力”。换句话说,以前 AI 能给孩子生成故事,现在 AI 开始能够创造一个讲故事的工具。这也是多奇最新系统版本最核心的变化——家长一句话指令即可创造新的应用。
包塔拿了一台最新版本的多奇向多知演示。他对着机器人说:“帮我做一个10以内加减法游戏,太空主题,左右键选答案。”
系统并没有立刻开始编写代码,而是由后台的 PM Agent(产品经理代理)开始介入。它像一个真正的产品经理一样,围绕场景向演示者发起了多轮追问和确认:不仅主动推荐了射击、营救、商店三种儿童常见主题供选择,还详细确认了游戏是否需要音效和动画,以及哪些硬件参与互动。在需求逐渐明确并得到演示者的确认后,后台的 Coding Agent(编程代理)才开始自动现场编程。
一两分钟后,一个全新的小游戏就被生成出来。
如果家长觉得不够好,还可以继续通过对话修改:“让背景星星动起来”、“改成直接用屏幕点击”、“修改为 20 以内的数字”……系统会继续根据新的要求迭代生成新的版本。
过去这类功能由产品经理写需求、设计师出图、工程师开发,起码要耗费两周的产研流程;现在,它缩短成了用户与 AI 之间几次简单的对话即可。
太空口算游戏刚演示完,包塔紧接着又对着多奇抛出了第二道更有挑战性的即兴考题:“帮我做一个太鼓达人的游戏。”
这一次,大模型的后台分析展现出了极强的场景理解力。系统并没有盲目套用万能的屏幕点击,而是在多奇所有的传感器和交互通路中进行了一轮筛选:在刚刚的太空口算游戏里,胸口触屏、掌心按键、甚至麦克风的语音输入都是合理的作答通路;但面对太鼓达人这种高频、强节奏的打击场景,AI 敏锐地判断出,让孩子频繁重击屏幕显然不是一个好体验。在众人的注视下,系统果断摒弃了触屏与语音,转而主动激活了两臂上的掌心按键作为敲击载体。
随后,系统自己调出音效、背景音乐和屏幕反馈等封装好的skill模块现场编程,两分钟后,这个完全基于物理按键交互的全新小游戏就在硬件上直接跑了起来。
这种根据具体场景自主调度硬件的能力,背后正是多奇 OS 在本地系统架构上的创新。
“传统电子产品中每个器件怎么用,出厂时就被程序定死了。”包塔解释道,而多奇打破了这种固化限制,让系统能承接云端 AI 思考后的能力透传,现场实时生成新程序,直接调用底层的硬件模组。
至此,多奇身上的胸口触屏、摄像头、麦克风、内置扬声器、陀螺仪和掌心按键,全部变成了可以根据场景动态调用的“底层积木”。它们不再是彼此孤立的死零件,AI 能够像指挥身体器官一样灵活调度硬件,将不同的模块打破固有边界,进行任意的组合与控制。
在多奇 OS 内部,这套智能系统是一个持续感知环境、理解孩子偏好、识别情绪变化的动态循环,它赋予了多奇“大脑”和“记忆”。
其核心由两层智能化分工矩阵驱动:在前端,由“伙伴 Agent”负责趣味互动,解决孩子为什么愿意玩的问题;由“教育规划 Agent”负责制定学习路径,解决家长为什么愿意给孩子买的问题。这两个 Agent 决定了多奇既是有趣的玩伴,又是专业的老师。
而在看不到的后台,则驻扎着一个由内容、PM Agent 和 Coding Agent 组成的 Agent Team,专门负责把家长的模糊指令,实时翻译成机器代码并调度硬件执行。
在多奇团队的底层逻辑中,“伙伴”拉动孩子兴趣,“教育规划”满足家长诉求,而贯穿前后台的底层场景交互层,则决定了多奇能否在长期陪伴中同时实现这两个目标。
这套轻盈的应用生成体系,其底座并非来自通用大模型。通用大模型虽然懂万物,但因为缺少桌面多模态的硬件触角,它们天然看不见孩子在桌面游戏时的真实动作,也无法理解儿童特有的思维偏误。这导致大模型直接生成的应用,要么高估了孩子的理解力,要么抓不住孩子的兴奋点,很难让孩子真正玩得下去。
多奇真正的差异化,来自于这颗大脑背后高频积淀下的“场景剧本”。
所谓场景剧本,本质上是系统对孩子在日常学习、运动游戏等不同场景下,交互规则的结构化抽取。这套规则的凝练过程如同燕子筑巢,是团队在产品正式发布前,通过长期的定向邀请测试与线下交互实验室,将儿童行为特征转化为工程语言的积累。这份研发沉淀中,既包含了对早期测试样本中儿童语言习惯的语料分析,也包含了在实验室中对低幼互动方式的分类抽象,以及前期调研访谈里摸清的家长痛点细节。
这些一线经验,最终演化成了多奇系统内部的一套Skills.md (技能与边界指南文件库)。每一个特定剧本的背后,都对应着一类场景下的专属规则文档,里面写满了现场自编程时必须遵循的无数条“Do and Don'ts”(原则与禁忌)。当家长的即兴指令传回,后台的 Agent 团队就会根据场景动态调用这组对应的专属指南来写代码,确保实时生成的每一个小游戏,既能踩中孩子的兴奋点,又能把诸如开口说英语、建立作息习惯等家长的长远心思,不动声色地揉进互动里。
随着这些私有化的场景理解越来越厚,多奇 OS 在现场生成轻应用时,自然也就更精准。在多奇 OS 的架构下,这些交互经验与场景剧本,在底层已经与物理硬件实现了解耦。
这意味着,未来无论多奇的物理形态如何更迭,这颗“大脑”和积累下来的学习进度、家庭记忆、场景剧本都能无缝迁移。当软件不再依附于特定的静态硬件而存在时,儿童陪伴机器人真正具备了向自进化具身智能演进的想象空间。
03 面向未来的自进化智能体
更进一步的是,多奇开始具备“自我生长”的能力。
如果一个孩子最近频繁阅读恐龙主题的故事绘本,多奇就会在日常互动中捕捉到孩子对霸王龙特别感兴趣。到了深夜,系统会对这些白天的场景交互进行消化与反思;而在清晨,多奇则会基于夜间的反思逻辑,自动为孩子定制出一个全新的“营救霸王龙”小游戏,把恐龙知识、英语单词和闯关任务融合进去。
早上,多奇会通过家长的手机小程序,主动解释生成这款新游戏的原因。家长在手机端点击确认后,这个小游戏方可正式发布到孩子的多奇上,确保内容和交互的安全可控。
这种基于大模型自编程的机制,如果形象地理解,就像是机器人能够“白天在看,夜里在想,清晨在做”。机器人不再是出厂即固定的死板硬件,而是能自我进化的 7×24 全职老师。
这种在硬件端实时生成、部署代码的能力,在低幼教育设备里,无异于自研了一套儿童专属的“Codex 系统”。
相比于过去几乎“开箱即巅峰”的传统儿童硬件,多奇打破了这套固定逻辑。它在与孩子的相处过程中不断长出新的能力,表现出一种“越用越聪明”的动态进化。
这种特质,让多奇开始超越最初的“AI小外教”或语伴边界。它更像是一个能够感知、思考、创造,并持续自进化的儿童智能体,能做的事情更多了。
回看多奇的硬件架构,会发现一些很有意思的产研伏笔。早在两年前进行最初的产品定义时,这款设备就组合预埋了双摄、屏幕、陀螺仪和掌心按键等全套物理感官。
在当时的市场环境里,这种偏向多模态交互的硬件配置在同类产品中并不多见。但正是因为提前搭好了完整的硬件能力,今天云端大模型生成的轻应用和自编程逻辑,才真正落在机器人身上,进而得以持续进化。
“我们当时思考未来的终局,多奇一定需要在真实世界里和孩子进行完整的交互,所以在做产品定义时,就决定把这些多模态的硬件器件全部预埋进去,”包塔坦言,“但今年 AI 进化的速度,带来了一种推背感极强的加速。它给了我们一个极高的技术支点,让我们能主动把原本规划在 3.0 版本的部分长远蓝图,提前在系统里推向落地。”
尽管技术演进的边界已经被拓宽,奇点灵智在商业化落地上,依然将重心锁在最初的英语启蒙上。包塔告诉多知,启蒙英语是家庭教育中覆盖面最广、需求最碎片化的刚需,也最适合用 AI 以低成本、高频交互的方式解题。
在团队的设想中,先在英语高频场景上把下盘扎稳,是极为关键的一步。有了这个稳固的基础,那套早就 Ready 的软硬件底座,未来才能顺理成章地去承载边界更宽的技能生态。
04 构建儿童教育的“分布式共创社区”
在这次版本升级规划中,多奇还试图在低幼教育领域种下一颗“共创”的种子——以“启发式互动与轻量化二创”为纽带,构建儿童教育领域的分布式技能社区。
过去,软件开发是研发工程师的专属。多奇则尝试把这种“协同共创”的模式带进家庭。在多奇 OS 中,每一个轻应用(Instant App)都不是出厂即写死的程序,而是一个可以被重新激发的创意种子。
为了让没有任何技术背景的家长也能轻松驾驭,多奇尝试将这种“现场生成代码”的能力彻底开放,拆解为了两套由浅入深的 AI 驱动路径:
第一种是基于现有场景的指令级重构。比如在“单词消消乐”游戏中,妈妈只需说一句:“孩子喜欢像素风,帮我把关卡换成像素风格。”多奇就会在后台现场改写代码, 1 分钟内完成 UI 更新,实现真正的“所见即所得”。
第二种则是基于自然语言的全量自生成。家长只需给出一个粗颗粒度的想法,比如包塔所演示的“做一个 10 以内加减法游戏”。多奇的 PM Agent 就会像“点菜”一样主动反问、梳理细节,确认需求后由云端自动 Coding,一分多钟后新游戏直接在设备上线。
这种基于自然语言的交互,彻底抹平了技术门槛。在近期的灰度测试中,许多完全不会编程的家长,都能用极低的门槛“召唤”出令人惊艳的个性化应用。
一位经常需要值夜班的护士妈妈,就通过与多奇 PM Agent 的几轮对话,在一夜之间“聊”出了一款跨时空的“好习惯闹钟”。这款专属打卡工具不同于死板的闹铃,它不仅克隆了妈妈温柔的声音,还由 AI 根据刷牙、睡觉等特定任务,现场随机生成了带有定制歌词的专属儿歌,在特定时间提醒孩子;孩子则可以通过多奇的摄像头拍照上传进度,值夜班的妈妈在手机端可以实时查看。
这个轻应用极大地缓解了跨时空育儿的情绪内耗。这正是 AGI 原生硬件的魅力所在:它让最懂孩子的父母和教育达人,在面对传统硬件时,不再有“想要的功能厂家没做”的焦虑与无力感。
当越来越多的教育达人、专家和家长加入创作者行列时,多奇 OS 的社区在后端自然演化为一个面向全网、高度定制化的儿童教育“技能大市场(Skill Marketplace)”。
它不再是传统移动互联网时代基于固化应用包分发的 App Store,而是更接近于生成式 AI 生态中的 Skills(智能体技能)网络。英语启蒙达人、数理老师、儿童心理专家,都可以把自己的独特教学创意与逻辑规则,打包成一个个专属的“技能卡片(Skill)”。用户一键注入设备即可调用,甚至能在使用过程中,随时通过自然语言对话对这个“技能”进行个性化的二创和迭代。
按奇点灵智团队的设想,这套 Skills 网络的成型,也将为跨界合作和商业模式带来新的解法。
对于拥有专业背景的教育达人与行业专家而言,Skills 机制提供了一种极轻量级的专业能力扩散与变现方式。这些教育专家在垂直领域各有特色、广为认可,但过去受限于技术门槛,其核心方法论只能停留在图书或图文课程层面。
如今,通过多奇后台的 PM Agent,AI 可以将他们的专业教学能力直接“编译”成生动有趣的轻应用或互动游戏。这种跨界赋能不仅能为用户提供带有专家独特教学痕迹的差异化功能,也让多奇未来有望在硬件销售的基础上,跑通可持续的订阅制模式,并与创作者共同探索长效分成的可能性。
此前,多奇的理想是成为一个能够察言观色、循循善诱、因材施教的“小老师”。而现在,随着底层技术模块的成熟,团队正在将这些原本孤立的能力像交响乐般融为一体。
在这套全新的系统架构中,前台是具有温度与同理心的日常沟通,后台的软硬件接口则与 AI Coding 深度打通。两者的紧密咬合,让多奇开始真正具备独立观察、深度思考与自主创造的能力。
在与家庭共创的生态下,这位“赛博书童”正在自进化中。










