在一批在線教育試水者當中,趙梓淳帶領(lǐng)的考拉閱讀有點不太一樣。因為國內(nèi)做分級閱讀的雖然不多,但是做中文分級閱讀,目前僅有他們一家。
在線教育這個領(lǐng)域,考拉閱讀算是新人——成立不足1年,團隊滿60人,剛完成新一輪融資。在創(chuàng)始人趙梓淳眼中,閱讀教育是一項非常龐大的產(chǎn)業(yè),AI+教育的未來仍存在很多不確定性??祭喿x也還處于摸索階段。
為什么要做中文的分級閱讀標準?
事實上,在國內(nèi),如好未來、VIPkid等一些在線教育企業(yè)已經(jīng)在做英文的分級閱讀,雖有其物,但一直沒多大水花。趙梓淳透露,對于考拉閱讀來說,做英語的分級閱讀標準并沒有太大的技術(shù)難度,但他們并不想做。
原因很簡單,國外已有一套很成熟的英文分級閱讀標準系統(tǒng),不僅運行了將近40年且已覆蓋了美國90%的學校,如Lexile分級(藍思分級)、GE分級等。而在國內(nèi),中文閱讀不僅連分級標準都未建立,很多教師甚至連分級閱讀都沒聽過,尤其是在重要的基礎(chǔ)教育領(lǐng)域,很多書店給童書分級,只能給出諸如“適合8歲以下孩子閱讀的童話書”等基于感性、經(jīng)驗基礎(chǔ)的文字建議。此外,教師、家長對孩子閱讀水平的了解也一直處于空白狀態(tài),因為獲取這一數(shù)據(jù)的渠道不是沒有,而是非常有限。
在這兩大剛需的驅(qū)使下,再加上全民閱讀、全面二孩等相關(guān)政策的頒布,以及人工智能、機器學習和大數(shù)據(jù)的發(fā)展,又給前者提供了更充分的條件,這一切都讓趙梓淳覺得:做一套中文分級閱讀標準很有必要,而且,時機也來了。
瞄準AI,建立中文分級閱讀系統(tǒng)
考拉閱讀首席技術(shù)官任易透露,在歐美,英文的分級閱讀主要有兩個維度:語義,主要看詞頻,如果一個單詞出現(xiàn)的頻次很低,則系統(tǒng)會判定這個詞相對較難。句法,主要看句子長度,長句一般較難去分析和理解。而句子難度跟從句、副詞、介詞等的使用也密切相關(guān)。
在這兩個維度上,歐美國家通過統(tǒng)計學的方法來完成分級閱讀標準的建立。任易表示,考拉閱讀的中文分級閱讀標準借鑒了國外“詞、句”的分析思想,因而和其有一定的相似性。但是,由于中文相較英文的“天生復(fù)雜性”,決定了考拉閱讀必須做得更加深入。
據(jù)趙梓淳介紹,中文和英文的三大本質(zhì)區(qū)別主要在于:一是基礎(chǔ)單元,英文的基礎(chǔ)是26個字母,中文的常用漢字達3500個,這就決定了中文閱讀的分析必然需要一個規(guī)?;恼Z料庫;二是分詞,英文不需要分詞,僅需空格即可判定詞語的邊界,但漢字脫離不了分詞。如“量子自旋效應(yīng)”這個詞,有人可以將其分為“量子”“自旋”“效應(yīng)”三個詞,也有人認為這就是一個詞,但在英文中就無此類困擾;三是句式結(jié)構(gòu),英文的句式結(jié)構(gòu)要嚴謹?shù)枚?,如主從句之間會有that、which、what等來界定。中文的行文風格則較為隨意,嵌套結(jié)構(gòu)也要混亂得多。
鑒于這三大區(qū)別,考拉閱讀基于ER Framework的分級閱讀標準在“詞”“句”的基礎(chǔ)上再加入“字”“段”“篇”三個維度,即從“字詞句段篇”五大維度提取幾十個特征來表達中文的難度,并實現(xiàn)段落、主題等的分析。
趙梓淳介紹,他們一共處理了幾百萬字的非平衡語料庫和幾億字的平衡語料庫??祭喿x的非平衡語料庫主要來自各個版本的小學教材及其教輔資料,其是指垂直于某一品類的語料庫,如小說、歷史傳記各有其對應(yīng)的語料庫;平衡語料庫即指一個孩子在日常生活中需要真實接觸的語料,如,按照一個10歲小孩需要看20%的名著小說、50%的課文和20%的漫畫這種比例來配語料庫。
“因為中文的句子相較英文要復(fù)雜得多,機器在理解中文的第一步就會遇到詞性分析、語言模型上的困難。所以,有賴于現(xiàn)在流行的AI技術(shù)?!比我妆硎荆艾F(xiàn)在我們可以做到,將一個句子按照句法樹、依賴關(guān)聯(lián)等予以拆解,以分析每一個成分在句子中的比重,從而實現(xiàn)閱讀文本的難度分級?!?/p>
而區(qū)別于歐美英文分級閱讀,考拉閱讀的分級閱讀系統(tǒng)最大的優(yōu)勢即在于AI在此發(fā)揮的作用。趙梓淳透露,隨著用戶數(shù)量的增加,產(chǎn)生的數(shù)據(jù)越多,該系統(tǒng)中的模型可實現(xiàn)自主學習,不斷優(yōu)化,從而對文本閱讀的難度感知越發(fā)準確。
從上至下 走To B路線
據(jù)了解,目前趙梓淳帶領(lǐng)其團隊共開發(fā)了三款產(chǎn)品:基于ER Framework的個性化分級閱讀系統(tǒng)、基于ER Framework和“新課標”的閱讀能力測評以及針對公立學校的閱讀整體解決方案,包括教師培訓(xùn)、分級短文材料等。其中,考拉閱讀的分級閱讀系統(tǒng)現(xiàn)在已經(jīng)進入天津市200余所中小學,被全市上百萬的小學生使用。趙梓淳稱,考拉閱讀的用戶群主要為小學階段的孩子,目標是利用AI和語言學的結(jié)合,全面提升這些孩子的閱讀能力。
在公司戰(zhàn)略決策的制定上,趙梓淳顯得非常冷靜而果斷,其稱,考拉閱讀的業(yè)務(wù)從一開始就是圍繞To B在展開,不會針對C端使用。原因有兩點:
1.普通民眾并不明白什么是分級閱讀。對于考拉閱讀這種體量的創(chuàng)業(yè)公司而言,要轉(zhuǎn)變他們對分級閱讀的認知,任務(wù)實在過于繁重。所以,更好的方式就是在一開始就從To B端的公立學校、教育機構(gòu)去切入,讓教育局、教師等為分級閱讀背書,且還能增強公司產(chǎn)品的公信力。
2.目前獲取C端用戶的成本依然很高?;诖?,趙梓淳表示,“所以我們還是想在B端穩(wěn)扎穩(wěn)打下去。后期公司發(fā)展到一定程度之后,必定會走向To C端,畢竟To B的天花板一定是可以預(yù)見的”。
目前,考拉閱讀已經(jīng)成功牽手200余所中小學,但在在線教育這一慢熱的市場,特別是在很多教育資源都被政府等相關(guān)機構(gòu)緊緊攥在手里的情況下,考拉閱讀又是如何打通這些壁壘,和這些中小學成功牽手的呢?
趙梓淳說,事實上,考拉閱讀一開始走這條路也不太順利——最先采取對每家學校進行單點突破的方式,效率非常低下。趙梓淳帶領(lǐng)其團隊觀察到這樣一個現(xiàn)象,國內(nèi)很多中小學都很重視學生的測評,但在閱讀能力的測評上卻處于相對空白的狀態(tài)。于是,考拉閱讀聯(lián)合北京師范大學基礎(chǔ)教育評測中心做了一件大事:在國內(nèi)一線到四線城市,對近10萬學生進行了基于ER Framework和“新課標”的閱讀能力測試,并對相關(guān)數(shù)據(jù)進行分析,最終出具了一份中國學生的閱讀能力量表。在測評的助攻下,考拉閱讀成功打通了和中小學合作的路徑。
開設(shè)教師培訓(xùn)課程
同時,在推進分級閱讀標準的過程中,考拉閱讀發(fā)現(xiàn)教師是整個推進過程的關(guān)鍵角色。因為雖然已經(jīng)開發(fā)出中文分級閱讀標準及其配套工具和產(chǎn)品,但在趙梓淳看來,這些工具和產(chǎn)品依然需要人來使用,需要教育者來向這些孩子傳遞教育的溫度和理念。但是,國內(nèi)教育理念跟不上,語文教師對整個前沿教育的趨勢掌握不到位……這些都是問題。
針對這一痛點,考拉閱讀還和學校合作開展了20課時和40課時不同版本的針對教師的培訓(xùn)課程,由其團隊里具有深厚教研經(jīng)驗的成員進行研發(fā),分為線下集中輔導(dǎo)和線上遠程支持兩種路徑,以培訓(xùn)教師們及時更新各種新興教育理念的能力,從而及時掌握教育閱讀的最新發(fā)展趨勢。
總的來說,“分級閱讀系統(tǒng)只是一種工具,它并不能喧賓奪主取代老師。我們做分級閱讀的意義就在于,想告訴家長和老師,哪種文本難度的書目是適合你的孩子或?qū)W生去閱讀的。至于讀還是不讀,依然需要家長和老師去做出判斷?!壁w梓淳坦言。