天天看點

對話多鄰國Duolingo:超5億人用的語言學習APP,想用AI實作教育普惠|36氪專訪

作者:36氪

文|沈筱

編輯|王與桐

在生成式AI技術浪潮下,教育普惠到底是噱頭,還是未來可期?

利用AI技術降低使用者擷取高品質、個性化教育的門檻是AI+教育賽道企業的共同願景。而GPT-4在法律知識、數學推理等方面的出色表現,也的确展示了生成式AI技術變革教育領域的潛力。

教育,顯然也是OpenAI選中的落地大語言模型的理想場景之一。除了通過OpenAI Startup Fund投資英語學習平台「Speak」。「多鄰國」就是OpenAI官網公布的首批GPT-4用例中唯二的教育科技公司。

放眼國内,近期,猿輔導、作業幫,以及網易有道、科大訊飛等也陸續宣布了有關生成式AI技術在教育領域應用的新進展。除了研發教育行業垂直模型,AI口語老師、AI學習機,多款新産品應接不暇。

然而,這僅僅是個開端。

在實作教育普惠這一願景的道路上,究竟如何将新技術用在具體場景中,解決何種問題,都還沒有完美答案。同時,如何在新技術商業化和教育普惠願景之間達成微妙平衡,或許也是賽道企業需要思考的問題。

一方面,新技術應用涉及前期研發投入;另一方面,現階段調用外部大型語言模型仍不便宜。正如多鄰國聯合創始人兼CEO Luis von Ahn在2023年Q1财報電話會中所言,基于GPT-4開發的新功能目前隻能保留在最高付費層,要普惠更多使用者,一方面可能尚需等待模型調用成本顯著下降;另一方面,針對免費層應該做什麼事情,還需要持續探索。

那麼,作為推出GPT-4首批用例的教育科技公司,多鄰國是如何利用生成式AI技術的?和此前AI技術應用實踐相比,有何不同?以及如何看待新技術在其實作“為全世界提供平等且優質的教育機會”願景過程中的作用?

帶着上述問題,36氪與多鄰國人工智能負責人Klinton Bicknell、軟體工程師主管Bill Peterson,以及亞太地區市場總監向海納進行了深入交流。

多鄰國成立于2012年,從教育科技行業獨角獸到登陸納斯達克,多鄰國已經在AI語言學習賽道營運11年。

據介紹,從2021年開始,多鄰國就與OpenAI達成合作。目前,公司已經将GPT-3應用于多鄰國英語測試(Duolingo English Test,DET)業務,并基于GPT-4開發了Explain My Answer和Roleplay兩個語言學習新功能,推出了新的付費層「Duolingo Max」。此外,OpenAI模型還被多鄰國用于生成課程内容、教學材料,以及為部分課程中的使用者寫作提供回報。

目前,多鄰國尚未公布有關Duolingo Max的具體資料表現,但Luis von Ahn此前表示,公司看好其增長情況。

總結來看,利用生成式AI技術,多鄰國距離提供千人千面的個性化語言學習服務又進了一步。過去,多鄰國基于自研AI模型實作課程定制化的邏輯主要是供需比對。也就是,為每個使用者推送适合其語言水準的課程内容,并根據使用者目前學習狀況,如對特定學習内容的熟悉程度,自動建立相應練習,并在特定時間予以展示。

這樣的定制化是基于規則的,并不具備真實語言運用場景中的靈活性和延展性。而按照向海納的說法,随着與OpenAI的合作,多鄰國正在使學習過程中的互動體驗也變得定制化。例如,基于GPT-4開發的Roleplay功能可以為使用者提供專屬的情景對話體驗。

同時,有了LLM,多鄰國更廣泛地采用了“human-in-the-loop”的開發方式,AI模型在課程内容生成等更多環節中替換了人力。這縮短了課程研發,以及DET測試題目開發的周期,為教學專家騰出了聚焦創新的時間和精力。在此基礎上,公司也獲得了研發跨學科、跨語種課程内容的機會。據介紹,多鄰國或将于今年下半年推出高階英文學習課程。

而“human-in-the-loop”在一定程度上也解決了LLM目前存在的幻覺等問題。Bill Peterson認為,利用LLM開發産品原型并不難,難點在于如何確定應用LLM開發的産品符合多鄰國對準确性和内容品質的要求。是以,除了專家團隊的參與,在專業性問題上,例如Explain My Answer功能,多鄰國自研的AI模型也發揮了不可或缺的作用。

同時,多鄰國曾在多個公開場合表示,生成式AI技術使得他們距離“為全世界提供平等且優質的教育機會”更進一步。談及在新技術應用帶來新增研發和營運成本的情況下,如何惠及更多使用者,Klinton Bicknell告訴36氪,公司正在探索如何讓免費使用者也能體驗新技術的方法。Bill Peterson則表示,課程創作速度、品質的提升,意味着免費使用者也正在從多鄰國與OpenAI的合作中受益。

亞太地區市場總監向海納,從0到1搭建了中國和東南亞市場營銷團隊,是多鄰國增長團隊的負責人之一;人工智能負責人Klinton Bicknell長期從事人工智能和認知科學的交叉領域研究,加入多鄰國前曾任西北大學助理教授;軟體工程師主管Bill Peterson兼任Duolingo Max産品工程主管,曾多次主導多鄰國盈利項目的産品研發、技術設施搭建以及人工智能團隊的工作。

以下是此次訪談的交流實錄,經36氪編輯:

01 未對OpenAI模型微調,人機協同+自有AI模型確定輸出品質

36氪:是什麼促成了Duolingo和OpenAI的緊密合作?

向海納:GPT3、GPT4出來時,我們看到了他們的Demo,内部團隊是非常震撼的。當時覺得這麼前沿的技術,一定要盡快看看能不能利用起來,一起做一些嘗試,尤其是過去多鄰國想做,但受限于技術而沒能做的事情。

從OpenAI的角度,據我了解,他們會在每個行業裡選擇最Top的合作夥伴。多鄰國在全球的語言教育領域還是比較有知名度的。

36氪:能否簡單介紹Duolingo和OpenAI合作的情況?

Bill Peterson: 多鄰國是OpenAI長期合作的夥伴。GPT-4是一個出色的工具,能夠生成精妙的回答。但是,GPT-4本身并不具備打造高品質的語言課程所需要的專業知識。在這方面,多鄰國的教學專家團隊起着關鍵作用。此前,多鄰國的海量資料和落地場景,也在幫助OpenAI優化GPT-4的表現。

對多鄰國而言,GPT-4加持下,Duolingo Max幫助多鄰國提供更高品質的教學内容,AIGC也讓多鄰國的學習體驗變得更加有效、有趣;通過使用GPT-3,多鄰國英語測試(DET)生成測試題目的速度也顯著提升,確定考試權威、公平、安全。

36氪:為什麼標明上線Explain My Answer和Roleplay這兩個新的功能?在研發之初是如何構思的?

Bill Peterson: 基于多年的使用者研究和洞察,我們了解到語言學習者的兩個主要需求,一是使用者希望了解他們正在學習的語言背後的規則是什麼;二是使用者普遍希望在真實場景中,練習他們的語言技能。

依托先進的對話形式與語言模型,ChatGPT能夠很好地滿足這兩大需求。再結合多鄰國在語言教學的積澱,以及海量課程積累的資料,這兩個新功能是我們面向全球使用者,打造更好的個性化學習體驗的第一步。

36氪:将OpenAI模型用于DET或其他業務中又是如何考慮的?

Klinton Bicknell:我們一直緻力于利用機器學習,以及OpenAI模型将專家團隊從地創新性和重複工作中解放出來。比如,過去DET考試内容主要由專家團隊編寫,十分耗費時間、精力。目前,DET在測試的每個步驟都使用AI,包括:生成測試題目、確定考試難度自适應,以及確定測試的公正、安全。其中,GPT-3主要用于生成閱讀了解題目的文本段落,多鄰國自有的AI模型,則負責幫助監考員監測和識别潛在的作弊行為。

除了Duolingo Max和DET,我們還使用GPT來生成課程内容,産出大量教學材料,來更快速地開發課程。比如,利用GPT生成大量的教學句子,和多樣化的闖關題目。同時,我們還在APP的部分課程中對使用者們的寫作進行回報——在使用者使用“小故事”功能後,會被要求進行寫作練習,這時OpenAI模型就會提供回報建議。

36氪:在新産品/功能開發過程中,技術層面有哪些難點?Duolingo如何解決的?

Bill Peterson: 我們可以簡單分享GPT-4/LLMs應用方面的難點。多鄰國非常注重課程的正确性和品質,是以在将模型應用于更多語種時,我們會很謹慎。多鄰國借助教學專家的力量,來評估GPT-4在每種語言中的輸出品質。目前Duolingo Max主要應用在英語、西班牙語和法語内容,暫時還沒有納入更多語種。

36氪:提到正确性和品質,目前大模型仍存在幻覺。多鄰國具體如何解決這個問題?

Bill Peterson: 正如剛剛提到的,我們在産品很多環節,采用了“人機協同(human-in-the-loop)”的方式,邀請教學專家參與,確定學習内容準确、有吸引力。

例如,Roleplay功能的情景由多鄰國教學專家撰寫。他們編寫面向AI的提示(prompt),確定場景對話主題與使用者正在學習的内容息息相關,而且涉及相關的文法和詞彙。教學專家的任務包括編寫角色扮演子產品的标題、場景設定、對話的情景緣起、以及初始對話消息。

另外,教學專家也幫助調整Roleplay功能的稽核提示。我們有一個借助手動标注的資料訓練出來的模型。例如,我們使用幾千個手動标注的回答作為判斷基礎,評估新生成的對話内容是否恰當。

此外,在Explain My Answer功能中,教學專家們也會對AI生成的解釋進行調整和回報。

我們會定期檢查GPT-4輸出的回答,由課程設計師和其他專家為事實準确性、風格、話題相關性打分,由此調整提示和模型。

36氪:之前在其他訪談中,多鄰國提到利用GPT-4做出産品原型隻用了一天,但後續還花費了大量精力來確定原型出錯。多鄰國對OpenAI的模型有進行微調嗎?除了人工檢查,是否采取了其他方式來解決幻覺問題?

Bill Peterson: 我們目前并未對OpenAI的模型本身進行任何更新。但是,在應用過程中,我們會把它與多鄰國自建的AI工具相結合,以優化使用者體驗。在需要事實性語言要素的應用場景裡,例如在Explain My Answer功能中,多鄰國自有的AI模型,會占主導功能,負責提供專業的資訊,并将對話和互動要素配置設定給GPT-4等模型。

未來,如果可行,我們期待和OpenAI密切合作,建構多鄰國獨立的模型。這将幫助多鄰國更好地比對應用情景,并保持其專屬性,避免受到外在影響。

02 LLM加速研發,高階英文課程正在路上

36氪:剛剛提到多鄰國自有的AI模型,具體而言,在和OpenAI合作前,多鄰國是如何應用AI技術的?

Klinton Bicknell:從創立之初,我們就在許多領域使用AI。

一是優化我們向使用者發送的個性化學習提醒消息,鼓勵大家堅持學習;

二是在課程方面,比如用于糾正使用者的文法錯誤,以及為多鄰國的動畫人物角色生成個性化的TTS(文本轉語音);

三是用于優化使用者學習體驗。預測使用者的語言掌握情況,判定接下來應該練習哪部分的文法、詞彙等。

多鄰國有一個很重要的AI模型「Birdbrain」。它能夠自動從專家編寫、稽核和翻譯的内容中自動抽取适合使用者的題目,確定使用者遇到的闖關題目難度适中,不會因為太簡單而枯燥乏味。

36氪:聽起來Birdbrain等自研模型承擔了之前課程定制化的任務。這樣的定制化和有了OpenAI模型之後有何不同?

向海納:過去的課程定制,每個人在APP上看到的學習内容可能是不一樣的。學習節奏、學習時間軸,以及推給使用者學習的課程内容,會比對他現在的語言學習階段。

剛剛提到的Birdbrain就是用來控制闖關題目正确率的,如果犯錯太多,說明内容推送太難,使用者很容易沒有學習動力,每次打開APP都很有心理壓力,這肯定不是我們想要的。另一方面,如果每次做全對,使用者也會覺得沒有挑戰,太輕松了,得不到提升。是以我們一般會把正确率控制在百分之七、八十左右。讓使用者覺得既比較有成就感,同時又能讓他在練習過程中,還有進步的空間。

随着和OpenAI的合作,我們發現除了學習内容,學習過程中的互動體驗也可以變得定制化,一個非常實際的例子是Roleplay。

36氪:除此之外,生成式AI技術是否為多鄰國帶來了其他方面的助益?

Klinton Bicknell:GPT-4幫助我們在更深入投資自有模型之前,就可以快速建構AI應用原型,驗證落地場景。

向海納:我們内部也在探索利用生成式AI技術優化其他工作流,比如加速動畫生成和制作。動畫和IP人物是讓多鄰國變得有趣的核心。

另外,在課程研發和規模化方面,我們可以在開發更多更高階學習課程方面有更大的發力。因為有了大模型,這部分内容的開發時間可以大幅縮短,人機結合的效率和效果會更好,可以在更短時間内實作規模化。同時,開發品質也會有提升,專家團隊能把精力放在創新上。當然如何更好地運用技術,我們現在也還處于探索的過程中。

高階課程是多鄰國目前的一個重要戰略方向,我們現在正在集中精力做英語這門課程的高階學習内容。在今年下半年會做正式官宣。

36氪:多鄰國希望在高階課程和現有的業務之間達成什麼聯系?

向海納:我相信是高階課程會對一些現有業務有反哺作用。比如和多鄰國英語測試(DET)之間,使用者重合度可能會越來越高。DET現在的增長也非常迅速,絕大部分的同學在考英文測試時,實際上也對英文學習有中高階的要求。是以在一定程度上,這部分學習内容的提供可能會反哺DET這樣的業務。

但需要澄清一點,我們開發的進階課程,并不是為應試而生的,也就是不會為了DET開發相應的課程内容。我們的目的是真正提升英文的實際使用能力。這兩個不同目的下,題型設計也是非常不同的。

36氪:多鄰國也說過可能會去探索一些除了語言學習之外的領域。在有了生成式AI技術的幫助後,是不是會加速公司拓展新的領域?

向海納:是的。首先多鄰國現在的确在探索除了語言學習之外的教學領域。我們已經開發了數學學習的App,當然除此之外,也在探索其他的一些學科。我們應該會在今年下半年做正式的釋出,現在就不過多劇透了。

36氪:GPT-4這類LLM和Duolingo原有的AI模型有沒有一定的替代性?

Klinton Bicknell:更多還是互補的。我們認為,出色的“教師”需要具備以下三個特質,深刻了解所教授的知識、讓學習者保持參與熱情、洞悉學習者的掌握情況。我們自研的AI系統就具備了這三個特質。但正如之前說到的,GPT-4本身并不具備這些特征,要為每個學習者量身定制更有互動性、個性化的體驗,我們需要把GPT-4這樣的大型語言模型,與多鄰國海量資料訓練出的自有模型相結合。

03 免費使用者間接受益

36氪:多鄰國一直強調遊戲化、有趣,走到高階的課程,對這部分内容有需求的使用者,他的付費心智或者需求痛點會不會不同?比如以前是為興趣而學,現在更重視課程品質、體系和技巧性的東西。多鄰國未來怎麼平衡遊戲化和功能性?

向海納:有趣和有效之間并不沖突。有效的學習不一定要以一種辛苦、沉悶的方式來實作。在多鄰國看來,這兩件事可以達到比較有效的平衡,或者可以做到兼得。

當然到了高階後,我們希望,也在探索沿用遊戲化、輕松的學習方式,讓學習内容具有互動性、趣味性。無論是多樣的答題方式還是小玩偶的IP、動畫的制作,我們都希望讓學習的體驗變得有趣,讓大家在答題過程中,通過互動或遊戲化的激勵方式,不斷得到适當回報。還可以通過排行榜的方式跟其他使用者PK。

36氪:多鄰國作為GPT-4的首批合作夥伴,能夠迅速應用新技術。但GPT4釋出時,OpenAI着重強調了模型在知識、助力教育方面的能力,今年年底據說也會釋出OpenAI學院平台,會不會擔心未來有正面競争?或者有沒有進一步的合作計劃?

向海納:OpenAI本身的政策和規劃,我們很難去評價。但可以看到,已經有越來越多的玩家入局。對我們來講,确實是要承認未來會有更競争化的環境。

但多鄰國也是有信心的,我們現在是全球最大的語言學習平台,除了具備長期機器學習和AI積澱,我們也擁有海量的使用者資料,以及教學方式上的沉澱、品牌IP。遊戲化的體驗也是非常核心的,差異化的一個方面。

生成式AI确實是一個新的趨勢,但多鄰國也希望在動态的變化裡保持一定的競争優勢。誰能更好地用上AI,誰就可能在這件事情上走得更快速,走在更前沿。是以我們也一直保持對新技術的敏銳度,不敢懈怠,也一直非常積極地尋求和OpenAI的合作,包括探索新的應用場景。

36氪:目前大模型實時調用的成本仍較高,它帶來的額外成本會不會轉嫁到消費者頭上?如何讓更多消費者也能享受個更性化的服務?

向海納:目前多鄰國内部是比較cost efficient的,無論是整個人效比還是ROI。我們現在全球員工有大概500多到600人的規模,但服務的是全球5億的使用者。我們很少會用大量的人工做低效的事情。在時間、精力、财力的投入上,公司比較高效和克制。

對Max這樣的産品,我很難 Promise未來的價格趨勢會怎麼樣,但是我認為AI技術一定可以讓教育變得更加普惠,讓更多人能夠更容易和平等地接受更高品質的教育。

Bill Peterson: 多鄰國絕大部分使用者是免費使用者,他們也将從多鄰國與OpenAI的合作中受益,因為我們的課程創作過程在不斷加速。AI如同任何創新工具一樣,如果應用合理,就能帶來便利、效率與生産力。

Klinton Bicknell:Duolingo Max目前還處于初期階段,目前在美國、英國、愛爾蘭、加拿大、澳洲和紐西蘭已經上線。我們正在努力将其擴充到更多國家,加強使用者互動,并不斷測試新功能,以打造更具吸引力的産品體驗。同時,我們也在探索能讓免費使用者們體驗生成式AI的途徑。

36氪:現階段采用LLM或生成式AI技術的公司,要達到盈虧平衡,甚至盈利的關鍵是什麼?

Klinton Bicknell:我們可以分享多鄰國的視角,未必能代表其他公司。生成式AI仍處于發展的早期階段。但是,如多鄰國的聯合創始人兼CEO Luis von Ahn在股東信中所說,新技術的發展速度令人驚歎,而且還有不斷提速的态勢。我們相信,那些學習速度最快、整合先進技術最快的公司将會脫穎而出。在多鄰國,我們一直在快速學習,不斷測試和疊代是我們業務的核心。