對話多鄰國Duolingo：超5億人用的語言學習APP，想用AI實作教育普惠｜36氪專訪

文｜沈筱

編輯｜王與桐

在生成式AI技術浪潮下，教育普惠到底是噱頭，還是未來可期？

利用AI技術降低使用者擷取高品質、個性化教育的門檻是AI+教育賽道企業的共同願景。而GPT-4在法律知識、數學推理等方面的出色表現，也的确展示了生成式AI技術變革教育領域的潛力。

教育，顯然也是OpenAI選中的落地大語言模型的理想場景之一。除了通過OpenAI Startup Fund投資英語學習平台「Speak」。「多鄰國」就是OpenAI官網公布的首批GPT-4用例中唯二的教育科技公司。

放眼國内，近期，猿輔導、作業幫，以及網易有道、科大訊飛等也陸續宣布了有關生成式AI技術在教育領域應用的新進展。除了研發教育行業垂直模型，AI口語老師、AI學習機，多款新産品應接不暇。

然而，這僅僅是個開端。

在實作教育普惠這一願景的道路上，究竟如何将新技術用在具體場景中，解決何種問題，都還沒有完美答案。同時，如何在新技術商業化和教育普惠願景之間達成微妙平衡，或許也是賽道企業需要思考的問題。

一方面，新技術應用涉及前期研發投入；另一方面，現階段調用外部大型語言模型仍不便宜。正如多鄰國聯合創始人兼CEO Luis von Ahn在2023年Q1财報電話會中所言，基于GPT-4開發的新功能目前隻能保留在最高付費層，要普惠更多使用者，一方面可能尚需等待模型調用成本顯著下降；另一方面，針對免費層應該做什麼事情，還需要持續探索。

那麼，作為推出GPT-4首批用例的教育科技公司，多鄰國是如何利用生成式AI技術的？和此前AI技術應用實踐相比，有何不同？以及如何看待新技術在其實作“為全世界提供平等且優質的教育機會”願景過程中的作用？

帶着上述問題，36氪與多鄰國人工智能負責人Klinton Bicknell、軟體工程師主管Bill Peterson，以及亞太地區市場總監向海納進行了深入交流。

多鄰國成立于2012年，從教育科技行業獨角獸到登陸納斯達克，多鄰國已經在AI語言學習賽道營運11年。

據介紹，從2021年開始，多鄰國就與OpenAI達成合作。目前，公司已經将GPT-3應用于多鄰國英語測試（Duolingo English Test，DET）業務，并基于GPT-4開發了Explain My Answer和Roleplay兩個語言學習新功能，推出了新的付費層「Duolingo Max」。此外，OpenAI模型還被多鄰國用于生成課程内容、教學材料，以及為部分課程中的使用者寫作提供回報。

目前，多鄰國尚未公布有關Duolingo Max的具體資料表現，但Luis von Ahn此前表示，公司看好其增長情況。

總結來看，利用生成式AI技術，多鄰國距離提供千人千面的個性化語言學習服務又進了一步。過去，多鄰國基于自研AI模型實作課程定制化的邏輯主要是供需比對。也就是，為每個使用者推送适合其語言水準的課程内容，并根據使用者目前學習狀況，如對特定學習内容的熟悉程度，自動建立相應練習，并在特定時間予以展示。

這樣的定制化是基于規則的，并不具備真實語言運用場景中的靈活性和延展性。而按照向海納的說法，随着與OpenAI的合作，多鄰國正在使學習過程中的互動體驗也變得定制化。例如，基于GPT-4開發的Roleplay功能可以為使用者提供專屬的情景對話體驗。

同時，有了LLM，多鄰國更廣泛地采用了“human-in-the-loop”的開發方式，AI模型在課程内容生成等更多環節中替換了人力。這縮短了課程研發，以及DET測試題目開發的周期，為教學專家騰出了聚焦創新的時間和精力。在此基礎上，公司也獲得了研發跨學科、跨語種課程内容的機會。據介紹，多鄰國或将于今年下半年推出高階英文學習課程。

而“human-in-the-loop”在一定程度上也解決了LLM目前存在的幻覺等問題。Bill Peterson認為，利用LLM開發産品原型并不難，難點在于如何確定應用LLM開發的産品符合多鄰國對準确性和内容品質的要求。是以，除了專家團隊的參與，在專業性問題上，例如Explain My Answer功能，多鄰國自研的AI模型也發揮了不可或缺的作用。

同時，多鄰國曾在多個公開場合表示，生成式AI技術使得他們距離“為全世界提供平等且優質的教育機會”更進一步。談及在新技術應用帶來新增研發和營運成本的情況下，如何惠及更多使用者，Klinton Bicknell告訴36氪，公司正在探索如何讓免費使用者也能體驗新技術的方法。Bill Peterson則表示，課程創作速度、品質的提升，意味着免費使用者也正在從多鄰國與OpenAI的合作中受益。

亞太地區市場總監向海納，從0到1搭建了中國和東南亞市場營銷團隊，是多鄰國增長團隊的負責人之一；人工智能負責人Klinton Bicknell長期從事人工智能和認知科學的交叉領域研究，加入多鄰國前曾任西北大學助理教授；軟體工程師主管Bill Peterson兼任Duolingo Max産品工程主管，曾多次主導多鄰國盈利項目的産品研發、技術設施搭建以及人工智能團隊的工作。

以下是此次訪談的交流實錄，經36氪編輯：

01 未對OpenAI模型微調，人機協同+自有AI模型確定輸出品質

36氪：是什麼促成了Duolingo和OpenAI的緊密合作？

向海納：GPT3、GPT4出來時，我們看到了他們的Demo，内部團隊是非常震撼的。當時覺得這麼前沿的技術，一定要盡快看看能不能利用起來，一起做一些嘗試，尤其是過去多鄰國想做，但受限于技術而沒能做的事情。

從OpenAI的角度，據我了解，他們會在每個行業裡選擇最Top的合作夥伴。多鄰國在全球的語言教育領域還是比較有知名度的。

36氪：能否簡單介紹Duolingo和OpenAI合作的情況？

Bill Peterson: 多鄰國是OpenAI長期合作的夥伴。GPT-4是一個出色的工具，能夠生成精妙的回答。但是，GPT-4本身并不具備打造高品質的語言課程所需要的專業知識。在這方面，多鄰國的教學專家團隊起着關鍵作用。此前，多鄰國的海量資料和落地場景，也在幫助OpenAI優化GPT-4的表現。

對多鄰國而言，GPT-4加持下，Duolingo Max幫助多鄰國提供更高品質的教學内容，AIGC也讓多鄰國的學習體驗變得更加有效、有趣；通過使用GPT-3，多鄰國英語測試（DET）生成測試題目的速度也顯著提升，確定考試權威、公平、安全。

36氪：為什麼標明上線Explain My Answer和Roleplay這兩個新的功能？在研發之初是如何構思的？

Bill Peterson: 基于多年的使用者研究和洞察，我們了解到語言學習者的兩個主要需求，一是使用者希望了解他們正在學習的語言背後的規則是什麼；二是使用者普遍希望在真實場景中，練習他們的語言技能。

依托先進的對話形式與語言模型，ChatGPT能夠很好地滿足這兩大需求。再結合多鄰國在語言教學的積澱，以及海量課程積累的資料，這兩個新功能是我們面向全球使用者，打造更好的個性化學習體驗的第一步。

36氪：将OpenAI模型用于DET或其他業務中又是如何考慮的？

Klinton Bicknell：我們一直緻力于利用機器學習，以及OpenAI模型将專家團隊從地創新性和重複工作中解放出來。比如，過去DET考試内容主要由專家團隊編寫，十分耗費時間、精力。目前，DET在測試的每個步驟都使用AI，包括：生成測試題目、確定考試難度自适應，以及確定測試的公正、安全。其中，GPT-3主要用于生成閱讀了解題目的文本段落，多鄰國自有的AI模型，則負責幫助監考員監測和識别潛在的作弊行為。

除了Duolingo Max和DET，我們還使用GPT來生成課程内容，産出大量教學材料，來更快速地開發課程。比如，利用GPT生成大量的教學句子，和多樣化的闖關題目。同時，我們還在APP的部分課程中對使用者們的寫作進行回報——在使用者使用“小故事”功能後，會被要求進行寫作練習，這時OpenAI模型就會提供回報建議。

36氪：在新産品/功能開發過程中，技術層面有哪些難點？Duolingo如何解決的？

Bill Peterson: 我們可以簡單分享GPT-4/LLMs應用方面的難點。多鄰國非常注重課程的正确性和品質，是以在将模型應用于更多語種時，我們會很謹慎。多鄰國借助教學專家的力量，來評估GPT-4在每種語言中的輸出品質。目前Duolingo Max主要應用在英語、西班牙語和法語内容，暫時還沒有納入更多語種。

36氪：提到正确性和品質，目前大模型仍存在幻覺。多鄰國具體如何解決這個問題？

Bill Peterson: 正如剛剛提到的，我們在産品很多環節，采用了“人機協同（human-in-the-loop）”的方式，邀請教學專家參與，確定學習内容準确、有吸引力。

例如，Roleplay功能的情景由多鄰國教學專家撰寫。他們編寫面向AI的提示（prompt），確定場景對話主題與使用者正在學習的内容息息相關，而且涉及相關的文法和詞彙。教學專家的任務包括編寫角色扮演子產品的标題、場景設定、對話的情景緣起、以及初始對話消息。

另外，教學專家也幫助調整Roleplay功能的稽核提示。我們有一個借助手動标注的資料訓練出來的模型。例如，我們使用幾千個手動标注的回答作為判斷基礎，評估新生成的對話内容是否恰當。

此外，在Explain My Answer功能中，教學專家們也會對AI生成的解釋進行調整和回報。

我們會定期檢查GPT-4輸出的回答，由課程設計師和其他專家為事實準确性、風格、話題相關性打分，由此調整提示和模型。

36氪：之前在其他訪談中，多鄰國提到利用GPT-4做出産品原型隻用了一天，但後續還花費了大量精力來確定原型出錯。多鄰國對OpenAI的模型有進行微調嗎？除了人工檢查，是否采取了其他方式來解決幻覺問題？

Bill Peterson: 我們目前并未對OpenAI的模型本身進行任何更新。但是，在應用過程中，我們會把它與多鄰國自建的AI工具相結合，以優化使用者體驗。在需要事實性語言要素的應用場景裡，例如在Explain My Answer功能中，多鄰國自有的AI模型，會占主導功能，負責提供專業的資訊，并将對話和互動要素配置設定給GPT-4等模型。

未來，如果可行，我們期待和OpenAI密切合作，建構多鄰國獨立的模型。這将幫助多鄰國更好地比對應用情景，并保持其專屬性，避免受到外在影響。

02 LLM加速研發，高階英文課程正在路上

36氪：剛剛提到多鄰國自有的AI模型，具體而言，在和OpenAI合作前，多鄰國是如何應用AI技術的？

Klinton Bicknell：從創立之初，我們就在許多領域使用AI。

一是優化我們向使用者發送的個性化學習提醒消息，鼓勵大家堅持學習；

二是在課程方面，比如用于糾正使用者的文法錯誤，以及為多鄰國的動畫人物角色生成個性化的TTS（文本轉語音）；

三是用于優化使用者學習體驗。預測使用者的語言掌握情況，判定接下來應該練習哪部分的文法、詞彙等。

多鄰國有一個很重要的AI模型「Birdbrain」。它能夠自動從專家編寫、稽核和翻譯的内容中自動抽取适合使用者的題目，確定使用者遇到的闖關題目難度适中，不會因為太簡單而枯燥乏味。

36氪：聽起來Birdbrain等自研模型承擔了之前課程定制化的任務。這樣的定制化和有了OpenAI模型之後有何不同？

向海納：過去的課程定制，每個人在APP上看到的學習内容可能是不一樣的。學習節奏、學習時間軸，以及推給使用者學習的課程内容，會比對他現在的語言學習階段。

剛剛提到的Birdbrain就是用來控制闖關題目正确率的，如果犯錯太多，說明内容推送太難，使用者很容易沒有學習動力，每次打開APP都很有心理壓力，這肯定不是我們想要的。另一方面，如果每次做全對，使用者也會覺得沒有挑戰，太輕松了，得不到提升。是以我們一般會把正确率控制在百分之七、八十左右。讓使用者覺得既比較有成就感，同時又能讓他在練習過程中，還有進步的空間。

随着和OpenAI的合作，我們發現除了學習内容，學習過程中的互動體驗也可以變得定制化，一個非常實際的例子是Roleplay。

36氪：除此之外，生成式AI技術是否為多鄰國帶來了其他方面的助益？

Klinton Bicknell：GPT-4幫助我們在更深入投資自有模型之前，就可以快速建構AI應用原型，驗證落地場景。

向海納：我們内部也在探索利用生成式AI技術優化其他工作流，比如加速動畫生成和制作。動畫和IP人物是讓多鄰國變得有趣的核心。

另外，在課程研發和規模化方面，我們可以在開發更多更高階學習課程方面有更大的發力。因為有了大模型，這部分内容的開發時間可以大幅縮短，人機結合的效率和效果會更好，可以在更短時間内實作規模化。同時，開發品質也會有提升，專家團隊能把精力放在創新上。當然如何更好地運用技術，我們現在也還處于探索的過程中。

高階課程是多鄰國目前的一個重要戰略方向，我們現在正在集中精力做英語這門課程的高階學習内容。在今年下半年會做正式官宣。

36氪：多鄰國希望在高階課程和現有的業務之間達成什麼聯系？

向海納：我相信是高階課程會對一些現有業務有反哺作用。比如和多鄰國英語測試（DET）之間，使用者重合度可能會越來越高。DET現在的增長也非常迅速，絕大部分的同學在考英文測試時，實際上也對英文學習有中高階的要求。是以在一定程度上，這部分學習内容的提供可能會反哺DET這樣的業務。

但需要澄清一點，我們開發的進階課程，并不是為應試而生的，也就是不會為了DET開發相應的課程内容。我們的目的是真正提升英文的實際使用能力。這兩個不同目的下，題型設計也是非常不同的。

36氪：多鄰國也說過可能會去探索一些除了語言學習之外的領域。在有了生成式AI技術的幫助後，是不是會加速公司拓展新的領域？

向海納：是的。首先多鄰國現在的确在探索除了語言學習之外的教學領域。我們已經開發了數學學習的App，當然除此之外，也在探索其他的一些學科。我們應該會在今年下半年做正式的釋出，現在就不過多劇透了。

36氪：GPT-4這類LLM和Duolingo原有的AI模型有沒有一定的替代性？

Klinton Bicknell：更多還是互補的。我們認為，出色的“教師”需要具備以下三個特質，深刻了解所教授的知識、讓學習者保持參與熱情、洞悉學習者的掌握情況。我們自研的AI系統就具備了這三個特質。但正如之前說到的，GPT-4本身并不具備這些特征，要為每個學習者量身定制更有互動性、個性化的體驗，我們需要把GPT-4這樣的大型語言模型，與多鄰國海量資料訓練出的自有模型相結合。

03 免費使用者間接受益

36氪：多鄰國一直強調遊戲化、有趣，走到高階的課程，對這部分内容有需求的使用者，他的付費心智或者需求痛點會不會不同？比如以前是為興趣而學，現在更重視課程品質、體系和技巧性的東西。多鄰國未來怎麼平衡遊戲化和功能性？

向海納：有趣和有效之間并不沖突。有效的學習不一定要以一種辛苦、沉悶的方式來實作。在多鄰國看來，這兩件事可以達到比較有效的平衡，或者可以做到兼得。

當然到了高階後，我們希望，也在探索沿用遊戲化、輕松的學習方式，讓學習内容具有互動性、趣味性。無論是多樣的答題方式還是小玩偶的IP、動畫的制作，我們都希望讓學習的體驗變得有趣，讓大家在答題過程中，通過互動或遊戲化的激勵方式，不斷得到适當回報。還可以通過排行榜的方式跟其他使用者PK。

36氪：多鄰國作為GPT-4的首批合作夥伴，能夠迅速應用新技術。但GPT4釋出時，OpenAI着重強調了模型在知識、助力教育方面的能力，今年年底據說也會釋出OpenAI學院平台，會不會擔心未來有正面競争？或者有沒有進一步的合作計劃？

向海納：OpenAI本身的政策和規劃，我們很難去評價。但可以看到，已經有越來越多的玩家入局。對我們來講，确實是要承認未來會有更競争化的環境。

但多鄰國也是有信心的，我們現在是全球最大的語言學習平台，除了具備長期機器學習和AI積澱，我們也擁有海量的使用者資料，以及教學方式上的沉澱、品牌IP。遊戲化的體驗也是非常核心的，差異化的一個方面。

生成式AI确實是一個新的趨勢，但多鄰國也希望在動态的變化裡保持一定的競争優勢。誰能更好地用上AI，誰就可能在這件事情上走得更快速，走在更前沿。是以我們也一直保持對新技術的敏銳度，不敢懈怠，也一直非常積極地尋求和OpenAI的合作，包括探索新的應用場景。

36氪：目前大模型實時調用的成本仍較高，它帶來的額外成本會不會轉嫁到消費者頭上？如何讓更多消費者也能享受個更性化的服務？

向海納：目前多鄰國内部是比較cost efficient的，無論是整個人效比還是ROI。我們現在全球員工有大概500多到600人的規模，但服務的是全球5億的使用者。我們很少會用大量的人工做低效的事情。在時間、精力、财力的投入上，公司比較高效和克制。

對Max這樣的産品，我很難 Promise未來的價格趨勢會怎麼樣，但是我認為AI技術一定可以讓教育變得更加普惠，讓更多人能夠更容易和平等地接受更高品質的教育。

Bill Peterson: 多鄰國絕大部分使用者是免費使用者，他們也将從多鄰國與OpenAI的合作中受益，因為我們的課程創作過程在不斷加速。AI如同任何創新工具一樣，如果應用合理，就能帶來便利、效率與生産力。

Klinton Bicknell：Duolingo Max目前還處于初期階段，目前在美國、英國、愛爾蘭、加拿大、澳洲和紐西蘭已經上線。我們正在努力将其擴充到更多國家，加強使用者互動，并不斷測試新功能，以打造更具吸引力的産品體驗。同時，我們也在探索能讓免費使用者們體驗生成式AI的途徑。

36氪：現階段采用LLM或生成式AI技術的公司，要達到盈虧平衡，甚至盈利的關鍵是什麼？

Klinton Bicknell：我們可以分享多鄰國的視角，未必能代表其他公司。生成式AI仍處于發展的早期階段。但是，如多鄰國的聯合創始人兼CEO Luis von Ahn在股東信中所說，新技術的發展速度令人驚歎，而且還有不斷提速的态勢。我們相信，那些學習速度最快、整合先進技術最快的公司将會脫穎而出。在多鄰國，我們一直在快速學習，不斷測試和疊代是我們業務的核心。

對話多鄰國Duolingo：超5億人用的語言學習APP，想用AI實作教育普惠｜36氪專訪

01 未對OpenAI模型微調，人機協同+自有AI模型確定輸出品質

02 LLM加速研發，高階英文課程正在路上

03 免費使用者間接受益

繼續閱讀

python parser.add_argument 之坑 bool

Kotlin學習---函數的定義和調用（上）

Lingo運作結果内容解讀

數學模組化--Lingo語言使用總結以及經典例題

貨機裝運問題

Lingo練習選拔問題

lingo程式基本架構和邏輯運算符

數學模組化 Lingo 基本算法模闆

lingo導入excel資料具體實作步驟

指定頂點之間最短路規劃 lingo與matlab實作（有向圖）

數學模組化 - 01背包問題多種解法 | C語言、Matlab、Lingo背包問題

運輸問題 Lingo

linggo：非線性規劃

一文學懂git建立版本庫分支回退上個版本多人協作檢視各種情況忽略檔案常見錯誤和處理方案

【流暢的python】筆記索引和資料筆記索引後續擴充

iOS學習_Lesson02_分支結構