英语AI Tutor的理想和现实
前两篇分析了为什么大部分中国人是哑巴英语,以及现在的英语教育的一些伪刚需和AI产品,这篇我会侧重讲一个我自己用AI的能力来突破传统英语教育的限制的经历和反思,以及之后的计划。
我觉得首先,我们还是要定位一下我们的目标用户是谁。从可见的市场行为来看,3~18岁学生的家长,他们才是英语教育的刚需用户,我们之前说,成年人虽然抱怨哑巴英语,但其实从来都没有觉得解决自己的问题是个刚需,但一旦成年人升级为家长就不一样了。英语无论是高考要求的范围内,还是范围之外,他都不妨碍家长在小朋友很小的时候用最高的要求来作为目标,那就是口语流畅表达,为什么呢?因为英语口语流畅表达不仅仅意味着在应试体系里面的顶级能力(至少掌握5000+词汇,远超高考),也同时是一种职业技能,未来还能有出国留学这种逃避高考找退路的机会。它是应试,留学,工作三合一的,最重要的是,它还非常科学,『语言敏感期很重要,越小启蒙越好』的观念深入人心(就只恨自己是哑巴英语)。哈哈,虽然哑巴英语是成年人的心病,但最后还是要靠下一代才能治。因为这是非常符合人性的:如果是只要花钱就能搞定的事,苦的又不是自己,为什么不花呢?
种种因素整合到一起,这个市场有多大呢?虽然双减的政策把英语的一些高端品牌和一些教育大厂的品牌广告打掉了,实际上k12+低幼英语单独来看仍然有每年千亿人民币的市场,70%还在线下,现在甚至都在水下。线上最近通过『素养』的方式复活了一些,明面上没有说,实操上已经放开了。所以,整体的参培率可以做到8%,虽然总人口在下降,但是未来应该可以到10%。
这个市场里有什么问题吗?我们再用第一性原理来剖析这个问题,家长最终极的理想是什么,就是小时候母语级别的听说流畅,口音纯正,长大了整体英语也能到雅思8.5托福110以上的水平(虽然这种数据化的认知很少人有,但都有模糊的概念,就是英语好一定不能是哑巴英语)。这个不是国家的要求,也不是小朋友自己的需求,它只是一个家长在内卷环境之下的终极理想,但它不是那种不切实际的清北常青藤的梦想,也不是指望自己的小孩是智商超常的天才的妄想,因为每个家长的朴实的潜意识里都能感觉到,学英语好像只需要有个环境就能很自然很无痛的学好了,它是每个资质平庸的普通人都能做到的事情,它居然有科学可能的实现方法。唯一的区别是,要花多少钱才能实现?
如果把能够每天自然的接触英语的时间做横轴,需要付出的价格做纵轴,我们会看到如下图表:

第一档,每天12小时,双语家庭,无价,它绝对是最自然最高效的一种,因为你0岁开始就可以学了,但它有价无市。
第二档,每天8小时,国际学校/人肉翻墙,每年几十万
第三档,每周3~5小时,线上外教一对一,每年大几万
第四档,每周3~5小时 ,线下中教小班/线上直播课,每年几千~一万
但是看到上面的图再结合一下我上篇文章提到的如何真的做到英语表达流畅的基础要求,你就知道,从第三档开始,如果你不是一个全职家长,在家里的时间也能每天督促用各种英语资料做输入的话,这些钱花出去,是一定达不到你想象中的那种脱口而出的效果的,他充其量只能是某些考试过关的短期能力提升。所以,可以说绝大部分的英语课和家长期待的终极效果之间,仍然是有gap的。但第一档和第二档的供给要么太少,要么实在是太贵了,如果说创新就是用新的生产要素去降低成本,扩大需求的话,我们很容易可以想到,是不是可以让一个口音纯正的AI以某种身份加入每个家庭,来一个英语供给成本上的革命性颠覆呢?
合理的想象是,这应该是一个活动的,多模态的语言机器人。而且还需要匹配一个高互动频次的角色,有点类似菲佣这样的保姆角色。我自己试图在一个mac电脑上低保真模拟了一下这个AI,它基本上可以实时语音对话,有个自己的形象,但不出意外,发现了以下几个问题:
1、在听说上仍然有瑕疵,第一,延时的问题仍然存在,但我觉得随着端侧模型的发展,这个问题会小很多,但现在用起来的情况就是,感觉你还是要等一等,不管是输入还是输出,虽然能打断。第二,语言的解析的正确率虽然在大模型的加持下有成长,但仍然不足够。这里面又可以分成两种情况,一个是它就是听不清,大概2%~3%之间,特别见于小朋友的说的话。一种就是由于他没有视觉或者实体的辅助,纯靠声音驱动,在一个多人对话的环境里面,他不知道是不是在跟他说话,辨析不出来杂音,而多人声在家庭里面是非常容易出现的情况,这种情况多了,你就会想,要不还是走小爱同学的路线 ,等喊他一声他再说话吧,不然真是太烦人了。
2、但这些都是一些小的技术问题,真正的核心问题是,在有一个真正的人形,长期记忆和人的运动能力之前,他的有效交流的场景太少了。如果类比一下真人父母或者菲佣这种照顾者的身份,他不是只要能说话能看见就行,真正日常听力输入都是在不同的任务下习得的,那你就需要能参与到这个任务里面来,它一定是『多模态』的:陪玩需要会搭积木,和食物有关的交流,需要能做饭,至少需要能削个苹果吧,和穿什么有关的互动,得帮忙穿衣服,叫起床,等等,如果你不能在真实的互动里面『顺带』把英语带上,你就会退化成一个需要单独时间的练英语环节,那就又回去了(想想上一篇文章里面提到的那些AI口语陪练APP)。还有要求更高的,就是根据长期记忆来推断当前对话的上下文,你昨天干嘛了,上个月干嘛了,都可能成为今天对话的内容,这个对目前的AI来讲还是有比较大的挑战难度的。可能唯一要求低一些的是讲故事,但是讲故事的替代性就很高了,动画片或者喜马拉雅听这种APP,小米音箱这种硬件都能满足这个需求。
3、这里我不得不提一个在调研中发现的奇葩产品,它真的是在一个反常识反理智只在一个问题上钻牛角尖的道路上一路狂奔的产物。我简单解释一下,它是用一个口罩把原声挡住,然后用机器翻译英语的大型翻译机(下图),虽然它也试图通过技术手段去营造一个英语环境,但这种硬扭真的挺『可怕』的。

总体而言,我觉得这一步需要具身智能再发展到一个阶段才会实现,而撬动具身智能往下一个阶段发展的,大概率还是家庭劳务这个方向的需求,就像你给小孩找保姆,养育需求总是在教育需求之上的,如果已经有一个灵活智能,安全靠谱的机器人能帮你带孩子,那让他再捎带教一下英语就非常顺理成章了。虽然听起来很科幻,但我觉得这件事是一定会发生的。
退而求其次,我先变成英语课呢?如果AI不能融入生活,又变成了传统的『课程』的话,那你要面临的第一个问题就是小朋友的配合度,服从性的问题,谁来驱动小朋友别玩了去学英语呢?就我们家的经验而言,这一步往往是最难的,最鸡飞狗跳的,它需要一个脾气暴躁的妈,我们这还是要完成有一定社交压力和正向激励的英文补习班的作业,很难想象如果单纯是一个靠一个AI想推动小朋友多读一些英语会有多大阻力。这时候我就不得不佩服那些能搞定小朋友的鸡娃家长了,不过也许人家背后也藏了很多鸡飞狗跳也说不定。
第二就是AI还做不到很多人纬度的灵活的互动,比如最简单的一个场景,你让小朋友读一个文章,让他先自己读,在他停顿的时候,读错的时候去纠正他,去跟他讲每个单词后面的意义,怎么用怎么记,这些虽然都是应试教育的知识点,也完全不符合母语教学的方法,但是如果你每天真的只能坐下来学30分钟的英语的话,你会知道这种教法仍然是最高效的(我用chatgpt的视频实时对话弄了很久,我发现其实效果已经在一个临界点上了,但还是需要父母辅助,因为AI没有指导思维,它还得通过你的提问来『指导』,AI也没法在你开小差的时候注意到你的变化),有没有让你想到点读笔?但你真正使用过就会觉得非常不一样,效率确实还是提升了一些。
这个方向对AI的挑战已经小很多了,他好像一个斯坦福毕业的雅思口语9分的私人家教,可以做到真正意义上的个性化辅导,因为他只在固定的时间被固定的任务唤起,所以我觉得他虽然现在还有很多不足,比如他还需要人工教研的大量输入,知道不同的情况应该说点啥,实时语音和视频成本还有点高,但这是一个可控的范围,在工程上,模型上,都是有很多的优化空间的。但是,你回到我们整个思路拆解的本质,我们这样的AI在这个行业图里面它到底解决了什么呢?它是一个家庭教师的角色,它相当于想要降低线上一对一的成本,这个成本优势,我觉得是已经建立了这样的销售链路的玩家们都想具备的,客观上有需求,主观上,虽然他们的模型能力可能不太突出,但他们也有很多现成的数据可以用来做后训练,而大模型上的优化,其实基本上被大公司都垄断了。这就变成了一个大公司+教育垂直公司的优化机会,以中国市场卷的程度而言,这种微创新会随着模型能力的增强很快迸发出来,我预言在今年年底之前,别的学科不知道,但是英语一定会有,市场上就会有以『AI』辅导老师为核心(或者某个额外的环节)的课程出来,创业公司很难有太大的发展空间。
说到这里,我就想把我最后的思考抛出来了,如果未来5~10年,AI可以发展到AGI的能力,且具身智能可以进入家庭,实现我之前提到过的终极理想的话,那么现在作为一个创业公司,我们现在应该做点啥?我觉得对一个初创公司来讲,合理的发展规律一定是符合时代的节奏的,肯定是跟着大模型的能力往前走,去构建一个之前不太可能成立的产品形态,但从根上来讲,又是对的:
第一,频次还原,把语言使用的真实频次还原到日常生活中来
第二,天生有趣,有正反馈
第三,高效
虽然有点抽象,但我大概已经构思好一个软件形态了,我会先尝试去做一个Demo出来,如果这个Demo表现不错,我就会把这个事儿做得更正式一点,希望感兴趣的朋友们能献计献策,也欢迎志同道合的朋友们加入(可以在文章下面留言:))。
度眠的最新日记 · · · · · · ( 全部 )
- AI真的可以解决哑巴英语的问题吗? (9人喜欢)
- 为什么大部分中国人都是哑巴英语? (132人喜欢)
热门话题 · · · · · · ( 去话题广场 )
-
加载中...