天天看點

語言作為界面(Language as Interface)

作者:大資料文摘
語言作為界面(Language as Interface)

大資料文摘授權轉載自安迪的寫作空間

界面或接口(Interface),是兩實體交換資料的媒體,交換資料的實體可以是軟體,電腦硬體,外部裝置,人等等。

随着 LLM 崛起,可看到因為其語言了解、推理、生成能力的強大,用它作為機器背後的思考引擎,就能讓語言作為界面成為可能。并不是說之前沒有語言作為界面的例子,比如腦殘助手們(Siri說你呢),但 LLM 的出現會讓語言作為界面獲得真正的推廣與使用,不再腦殘。

語言是人的天然界面

自然語言是從人類對話開始,而語言對于人類是一種天然的界面。

語言是和人類(大腦)一起進化的,在各種生存壓力下,語言和大腦一起從最簡單信号,而進化到各種進階能力,如符号系統、想象等,而這也就催生出了科學宗教等等。我們智人這方面的能力尤為明顯。

語言對于人類交流方面就是一種本能(繼續推薦《語言本能》),是以語言作為界面對于人類來說就是天生的,最自然的界面。

是以如果很多東西的界面變成了語言,那這些東西的使用門檻也就會變成非常低,隻要你會指揮就行。

我們在各種作品裡也有類似想象,比如賦予各種物體靈,然後通過語言進行互動,比如能聽懂指揮的飛劍啊法寶啊。

而現在,這種假設就能通過将 LLM 作為思考引擎接入進去,進而得到實作。

很多人學習的是界面的使用

對大部分人來說,天天都在用各種界面,智能手機,電子家電,電腦軟體,這些界面都有一定門檻,有高有低。人們日常工作學習,大部分就在學習界面的互動,通過界面來用工具。

特别對于天天處理電子化檔案的白領來說,吃飯技能可能就是界面使用。比如說 Office 全家桶,什麼三十天excel從入門到精通、word實戰等等,都教的是如何使用 Office 界面。

個人用 Office,很頭疼,那個什麼功能在什麼地方。明明知道想要什麼,也能用語言表達出來,但就不知道在那茫茫一大片按鈕中的哪個中。于是隻能先輸入搜尋引擎,找到相關操作文章,照着弄,真麻煩。再過個一段時間,又忘這個功能在哪了。

而如果将語言作為界面後,就省掉了查找搜尋引擎的步驟,直接給想要的說出來就行,給工具的使用門檻降到很低。

語言作為界面(Language as Interface)

現在微軟推 Copilot 就是在将旗下的各種産品換成語言作為界面的形式。

誰沒一張嘴呢,我想要這樣這樣,很好提。但各種軟體工具的界面不好學,是以光各個軟體和相關教程就養活多少人。而如果給工具界面變成語言,辛辛苦苦學習界面的人就能被取代掉,不需要中間這環了,需求方直接用語言調工具。

是以我認為,随着 LLM 作為引擎,語言作為界面得到普及後,會對之前工作主要就是學習各種界面和接口的人,造成巨大沖擊,包括程式員。很容易被語言界面取代掉,特别如果工具的 error-trial 的成本低,錯了就錯了,再試一試就好,無非多花些時間調。

機機接口也能用語言

語言作為界面(Language as Interface)

兩個都用 LLM 作為引擎的機器,也能語言作為界面來進行互動了。

一般機器與機器之間互動,為追求精準或效率,由專業人員進行界面 API 定義,檢視文檔來調用。這種方式精準可控,效率高。但壞處和前面提到一樣,有門檻,還涉及到界面設計,使用者對界面學習。

如果讓機器之間直接用自然語言作為界面互動的話,會非常簡單,還很統一,不再存在多種多樣的 API 界面了,都隻有一個,自然語言。

之前讀 Generative Agents,非常受啟發。論文大概說,小型模拟世界,NPC 背後都用 LLM 作為引擎,用自然語言交流、獲得資訊、記憶。還用 LLM 推理出合理行為反應,每個 NPC 隻需給一個初始描述,然後就能自己運轉起來。比如作者給某個 NPC 腦子裡加入一個要辦情人節party的想法(也用自然語言),結果遊戲人物就自己走出門,和其他 NPC 聊,最後給消息傳播開,還組成了 party,很神奇。

語言作為界面的缺點

語言作為界面也有很明顯的缺點,那就是自然語言的模糊性,拿到真正意圖比較麻煩。

所謂的語言作為界面,本質就是給語言到功能點的連結給隐藏起來了,之前從語言到功能點,是人來學習怎麼觸發,現在需要底層 LLM 模型來進行觸發了。

是以這就帶來兩個難點。

第一,是否能夠正确地了解給到的語言指令,我說:”加粗第三小節第二段,第一句話,不要連結詞“,模型是否能了解正确。這涉及到對齊問題,整體來說現在模型對指令的了解還是挺好的,而且不用太多資料也能泛化。

第二,是否能給了解到的指令正确地映射到具體操作,假設模型了解了上述指令,那怎麼給這種了解映射到具體操作,讓底層工具來完成正确操作呢,這塊可以直接讓 LLM 學習調 API,這也是現在一個大方向,讓模型學習用工具和接口。

上面這兩點都需要靠 LLM 來進行解決,前者是通過語言了解,後者通過它的符号推理能力。

隻要 LLM 能力能不斷得到完善,那麼最終都是能解決的。

對于某些場景,真的需要精确性比較強,那也可以做成混合互動界面,可選擇性地采用更精确的互動方式。

更進一步

顯然如果語言作為界面推廣開,那麼之後就是,腦機接口了,直接腦信号作為界面。

這塊我了解還得建立在語言作為界面基礎上,因為人類思考是和語言高度綁定的,如果都不知道語言如何描述,那麼就無從解釋,當然也不否認以後真搞出一個,直接信号到信号,但感覺挺遙遠的。

比較直接的方式還是,腦信号到自然語言,再通過自然語言界面進行互動,還是繞不過語言作為界面。

是以我認為,現在基于 LLM 的語言作為界面的影響必然是巨大的。

語言作為界面(Language as Interface)

繼續閱讀