考拉閱讀CEO趙梓淳：如何利用AI、語言學做出國内首個中文分級閱讀系統？

在一批線上教育試水者當中，趙梓淳帶領的考拉閱讀有點不太一樣。

因為國内做分級閱讀的雖然不多，但是做中文的分級閱讀，國内目前卻僅有他們一家。

考拉閱讀CEO趙梓淳

在線上教育這個領域，考拉閱讀算是一名新人——成立不足1年，團隊堪滿60人，剛完成3000萬的Pre-A輪融資。在創始人趙梓淳眼中，閱讀教育是一項非常龐大的産業，AI+教育的未來仍存在很多不确定性。考拉閱讀也還處于摸索階段。

為什麼要做中文的分級閱讀标準？

事實上，在國内，如好未來、VIPkid等一些線上教育企業已經在做英文的分級閱讀，雖有其物，但一直沒多大水花。趙梓淳向雷鋒網透露，對于考拉閱讀來說，做英語的分級閱讀标準并沒有太大的技術難度，但他們并不想做。

原因很簡單，國外已有一套很成熟的英文分級閱讀标準系統，不僅運作了将近40年且已覆寫了美國90%的學校，如Lexile分級（藍思分級）、GE分級等。而在國内，中文閱讀不僅連分級标準都未建立，很多教師甚至連分級閱讀都沒聽過，尤其是在重要的K12教育領域，很多書店給童書分級，隻能給出諸如“适合8歲以下孩子閱讀的童話書”等基于感性、經驗基礎的文字建議。此外，教師、家長對孩子的閱讀水準的了解也一直處于空白狀态，因為擷取這一資料的管道不是沒有，就是非常非常有限。

在這兩大剛需的驅使下，再加上“全民閱讀”、二胎等相關政策的頒布，以及人工智能、機器學習和大資料的發展，又給前者提供了更充分的條件，這一切都讓趙梓淳覺得：做一套中文的分級閱讀标準很有必要，而且，時機也來了。

瞄準AI，建立基于ER Framework的中文分級閱讀系統

丨中英文差異

考拉閱讀CTO任易向雷鋒網透露，在歐美，英文的分級閱讀主要有兩個次元：

▪ 語義：主要看詞頻，如果一個單詞出現的頻次很低，則系統會判定這個詞相對較難。 ▪ 句法：主要看句子長度，長句一般較難去分析和了解。而句子難度跟從句、副詞、介詞等的使用也密切相關。

在這兩個次元上，歐美國家通過統計學的方法來完成分級閱讀标準的建立。任易表示，考拉閱讀的中文分級閱讀标準（ER Framework ）借鑒了國外的“詞、句”的分析思想，因而和其有一定的相似性。但是，由于中文相較英文的「天生複雜性」，決定了考拉閱讀必須做得更加深入。

據趙梓淳介紹，中文和英文的三大學質差別主要在于：

▪ 基礎單元：英文的基礎是26個字母，中文的常用漢字達3500個，這就決定了中文閱讀的分析必然需要一個規模化的語料庫。

▪ 分詞：英文不需要分詞，僅需空格即可判定詞語的邊界，但漢字脫離不了分詞。如「量子自旋效應」這個詞，有人可以将其分為「量子」、「自旋」、「效應」三個詞，也有人認為這就是一個詞。但在英文中就無此類困擾。

▪ 句式結構：在句式結構上，英文要嚴謹得多，如主從句之間會有that、which、what等來界定。中文的行文風格則較為随意，嵌套結構也要混亂得多。

丨「字詞句段篇」五大次元+AI技術

鑒于這三大差別，考拉閱讀基于ER Framework的分級閱讀标準在「詞」、「句」的基礎上再加入「字」、「段」、「篇」三個次元，即從「字詞句段篇」五大次元提取幾十個特征來表達中文的難度，并實作段落、主題等的分析。如在「字」其下還有常用性、構形、組合性三個特征，「句」則有句法結構、語義邏輯、修辭表達和嵌套深度四個特征等等。

趙梓淳告訴雷鋒網(公衆号：雷鋒網)，他們一共處理了幾百萬字的非平衡語料庫和幾億字的平衡語料庫。考拉閱讀的非平衡語料庫主要來自各個版本的國小教材及其教輔資料，其是指垂直于某一品類的語料庫，如小說、曆史傳記各有其對應的語料庫；平衡語料庫即指一個孩子在日常生活中需要真實接觸的語料，如，按照一位10歲小孩需要看20%的名著小說、50%的課文和20%的漫畫這種比例來配語料庫。

“因為中文的的句子相較英文要複雜得多，機器在了解中文的第一步就會遇到詞性分析、語言模型上的困難。是以，有賴于現在流行的AI技術，如RNN、LSTM等深度學習技術，可以彌補中文在NLP上的缺失。”任易表示，“現在我們可以做到，将一個句子按照句法樹、依賴關聯等予以拆解，以分析每一個成分在句子中的比重，進而實作閱讀文本的難度分級。”

而差別于歐美英文分級閱讀，考拉閱讀的分級閱讀系統最大的優勢即在于AI在此發揮的作用。趙梓淳向雷鋒網透露，随着使用者數量的增加，産生的資料越多，該系統中的模型可實作自主學習，不斷優化，進而對文本閱讀的難度感覺越發準确。

以教育局切入，「從上至下」走To B路線

據雷鋒網了解，目前趙梓淳帶領其團隊共開發了三款産品：

▪ 基于ER Framework的個性化分級閱讀系統； ▪ 基于ER Framework和“新課标”的閱讀能力測評； ▪ 針對公立學校的閱讀整體解決方案，包括教師教育訓練、分級短文材料等。

其中，考拉閱讀的分級閱讀系統現在已經進入天津市200餘所中國小，被全市上百萬的國小生使用。趙梓淳稱，考拉閱讀的使用者群主要為國小階段的孩子，目标是利用AI和語言學的結合，全面提升這些孩子的閱讀能力。

在公司戰略決策的制定上，趙梓淳顯得非常冷靜而果斷，其稱，考拉閱讀的業務從一開始就是圍繞To B在展開，不會針對C端使用。原因有兩點：

1、普通群眾并不明白什麼是分級閱讀。對于考拉閱讀這種體量的創業公司而言，要轉變他們對分級閱讀的認知，任務實在過于繁重。是以，更好的方式就是在一開始就從To B端的公立學校、教育機構去切入，讓教育局、教師等為分級閱讀背書，且還能增強公司産品的公信力。 2、目前擷取C端使用者的成本依然很高。

基于此，趙梓淳表示，“是以我們還是想在B端穩紮穩打下去。後期公司發展到一定程度之後，必定會走向To C端，畢竟To B的天花闆一定是可以預見的。”

丨牽手200餘所中國小

然而，在線上教育這一慢熱的市場，特别是在很多教育資源都被政府等相關機構緊緊攥在手裡的情況下，考拉閱讀又是如何打通這些壁壘，與教育局，以及地級市200餘所學校成功牽手的呢？

趙梓淳告訴雷鋒網，事實上，考拉閱讀一開始走這條路也不太順利——最先其采取對每家學校進行單點突破的方式，卻發現效率非常低下。

趙梓淳帶領其團隊觀察到這樣一個現象，國内很多中國小都很重視學生的測評，但在閱讀能力的測評上卻處于相對空白的狀态。于是，考拉閱讀聯合北京師範大學基礎教育評測中心合作「搞」了一件大事：在國内的一線到四線城市，對近10萬學生進行了基于ER Framework和“新課标”的閱讀能力測試，并對相關資料進行分析，最終出具了一份中國學生的閱讀能力量表。在測評的助攻下，考拉閱讀成功打通了和中國小合作的路徑。

丨開設教師教育訓練課程

同時，在推進分級閱讀标準的過程中，考拉閱讀發現「教師」這一角色反而是整個推進過程的關鍵角色。因為雖然已經開發出中文分級閱讀标準及其配套工具和産品，但在趙梓淳看來，這些工具和産品依然需要人來使用，需要教育者來向這些孩子傳遞教育的溫度和理念。但是，國内教育理念跟不上，國文教師對整個前沿教育的趨勢掌握不到位......這些都是問題。

針對這一痛點，考拉閱讀還和學校合作開展了20課時和40課時不同版本的針對教師的教育訓練課程，由其團隊裡具有深厚教研經驗的成員進行研發，分為線下集中輔導和線上遠端支援兩種路徑，以教育訓練教師們及時更新各種新興教育理念的能力，進而及時掌握教育閱讀的最新發展趨勢。

結語

分級閱讀進入國内的這些年，不是沒有遭受過質疑之聲，有人認為分級閱讀不适應中國國情，比如有些孩子從小耳濡目染四大名著，可能會對超出分級閱讀系統推薦的書目以外的書籍感興趣，當然不能排除這種可能性。

面對這一問題，趙梓淳如此表示：

“分級閱讀系統隻是一種工具，它并不能喧賓奪主說可以取代老師。我們做分級閱讀的意義就在于，想告訴家長和老師，哪種文本難度的書目是适合你的孩子或學生去閱讀的。至于讀還是不讀，依然需要家長和老師去做出判斷。”

最後，談及在推進分級閱讀教育過程的體會時，趙梓淳坦言道，“教育是一件很大很大的事情，因為它與人性直接相關，不是僅僅做好産品就能實作「通吃」的。大家一直都在說「教育科技」，而非「科技教育」，因為教育一定是擺在第一位的。”

本文作者：李秀琴

考拉閱讀CEO趙梓淳：如何利用AI、語言學做出國内首個中文分級閱讀系統？

繼續閱讀

小i機器人受邀赴韓交流，CFO首爾亞洲金融論壇演講

吳恩達deeplearning

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

吳恩達機器學習筆記（3）

吳恩達j機器學習之過拟合

吳恩達機器學習(一) 介紹

深度學習模型分析人類複雜疾病的準确性

疾病研究：重症肌無力

人工智能如何有效地運用于自然語言處理

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

無人機--飛控科普