天天看點

前 LangChain 員工爆料更強的 Devin 2.0 要來了?

作者:InfoQ

作者 | 褚杏娟

3 月份,有着“世界首個 AI 程式員”的 Devin 橫空出世,立刻就被大家追捧。據報道,Devin 可以規劃和執行需要數千個決策的複雜工程任務,并回憶每一步的相關背景,随着時間的推移學習并修複錯誤。一時間,各個程式員們心裡慌慌。

近日,前 LangChain 員工 Andrew Gao 在網上爆料了即将上線的 Devin 2.0 新功能。

前 LangChain 員工爆料更強的 Devin 2.0 要來了?

視訊請到原文觀看

首先,啟動互動模式以幫助 Devin 浏覽網絡。如果被卡在圖檔驗證碼之類的東西上,那麼它非常有用。誠然,它有些慢(他們承認這一點),但它工作得足夠好,能夠做出點選動作。

前 LangChain 員工爆料更強的 Devin 2.0 要來了?

其次,之前大家抱怨的使用 Devin 無法幹預和編輯代碼,現在可以通過啟動 Web VSCode 來執行此操作。

前 LangChain 員工爆料更強的 Devin 2.0 要來了?

另一個更新則是 Cookie,它讓 Devin 能夠使用使用者的帳戶登入網站,而無需向 Devin 提供使用者密碼。 PhantomBuster 也做了類似的事情。

Andrew 舉了個例子,他讓 Devin 在 DoorDash 上訂購雞翅, Devin 很好地找到了店鋪 Wingstop、選擇了雞翅以及操作各種複選框......

前 LangChain 員工爆料更強的 Devin 2.0 要來了?

視訊請到原文觀看

Devin 現在似乎更擅長編寫網站:

前 LangChain 員工爆料更強的 Devin 2.0 要來了?

Devin 還新增了“機器快照”功能,機器快照可以讓使用者儲存 Devin 的狀态,這樣當伺服器關閉時,使用者可以再次啟動。

前 LangChain 員工爆料更強的 Devin 2.0 要來了?

Devin 還支援與 GitHub 內建,可以讓 Devin 進行送出。

前 LangChain 員工爆料更強的 Devin 2.0 要來了?

不過需要注意的是,Devin 背後公司 Cognition 并未正式釋出上述功能。

創始人最新訪談,閉口不談造假風波

對于 Devin 來說,最火的時刻有兩個:一是 3 月 13 日剛釋出時,二是兩周多後被指造假時。

就在上個月初,一位自稱有 35 年軟體工程師經驗的網絡部落客卡爾質疑 Devin 造假,卡爾逐幀複現了 Devin 的示範視訊并提出質疑,主要包括以下方面:

  • Devin 被認為能夠解決任意 Upwork 任務。但在視訊示範中,要求解決的問題與客戶規定的要求(客戶要求設定說明,而不是代碼)不符;
  • Devin 正在修複 GitHub 存儲庫源中的錯誤,但它所編輯的檔案實際上并不存在于該存儲庫中,而且它修複的一些錯誤是無意義的,屬于人類永遠不會犯的類型。推論:Devin 一定是在修複它自己建立的檔案中的錯誤,但沒有明确指出;
  • EC2 部分不需要進行任何編碼,因為存儲庫中的自述檔案包含完成任務所需的所有說明,隻需一行調整即可正常工作,即使存儲庫是舊版本。這就是為什麼客戶要求提供有關如何在 EC2 上運作的說明,而不是一些編碼要求。 Devin 似乎沒有閱讀 README,也不明白它隻需要執行幾個預先存在的 Python 腳本。視訊中的輸出看起來任務很複雜,有很長的計劃和許多顯示工作已完成的複選框,但實際上這項工作毫無意義且多餘;
  • Devin 的代碼更改很糟糕,例如編寫自己的低級檔案讀取循環而不是正确使用标準庫;
  • 雖然視訊看起來 Devin 很快就完成了任務,并且視訊建立者能夠在大約 30 分鐘内完成所請求的任務,但聊天中的時間戳顯示該任務持續了多個小時,甚至持續到第二天;
  • Devin 執行無意義的 shell 指令,如“head -n 5 foo | tail -n 5”。

卡爾認為,Cognition Labs 誇大了 Devin 的能力,視訊描述和推文中存在謊言,造成混亂和誤解。卡爾建議,不要在未經适當研究的情況下盲目重複和放大網上發現的主張。

“幾乎沒有任何人工智能産品能在經過大肆宣傳後的幾周後,依然表現讓人滿意。”有網友評價道。

雖然人們非常期待 Cognition 能對這些質疑進行回應,但截至目前該團隊都沒有做出解釋。我們隻能在 4 月中旬,Scott 的推特中隐約看到他對 Devin 缺點的态度:今天的 Devin 還遠非完美。Devin 經常工作,但也經常犯錯誤、編寫錯誤或陷入困境。

5 月 2 日,Scott Wu 參加的不到 30 分鐘的采訪視訊釋出。Scott 在視訊裡表示,未來工程師并不會因為 AI 減少,反而會越來越多。首先,AI 會對工程的需求變大,“很多問題可以用代碼解決,也有很多問題可以用代碼建構”;其次,Devin 不是決定做什麼的人,使用它的人應該知道要建構什麼、解決什麼問題等,是以他認為 Devin 隻是讓工程師更加純粹。

Scott 認為,Devin 更加擅長的領域在 Devops 和 Dev 設定方面。“Devin 第一個真正讓我們興奮的時刻是資料庫表旋轉、Kubernets 啟動時。” 另一個很好的用例則是資料分析。Scott 強調,Devin 是執行者,它的重點是如何準确了解需求後将其表述為代碼并做到。

前 LangChain 員工爆料更強的 Devin 2.0 要來了?

“他們給了他一切機會來回應對視訊的批評,但他一直回避。他沒有說任何實質性内容。這次采訪并沒有激發人們對他的公司的任何信心。”有網友在采訪視訊下評論道,甚至有人調侃稱,“加密貨币詐騙者接受加密貨币詐騙者采訪。”

當然也有力挺的網友,“在這裡看到這麼多仇恨者真是太瘋狂了。Scott 建立了一支非常優秀的團隊,并正在開發一款革命性的産品。”

根據 Linkedin 顯示,該公司目前有超過 35 人的員工,上面各項動态依然停留在 Devin 剛釋出那天。

前 LangChain 員工爆料更強的 Devin 2.0 要來了?

“無法透露更多細節”

Cognition 公司擁有三位創始人:CEO Scott Wu、CTO Steven Hao 和盒首席産品官 Walden Yan。

Scott Wu 自述自己 9 歲起開始程式設計,并且非常熱愛将自己的想法變成現實的感覺。還有人挖出了 Scott Wu 在 14 歲時參加 MathCounts 比賽的視訊。在比賽中,Scott Wu 回答奧數問題基本不需要多少思考時間,主持人念完問題,Scott Wu 馬上能報出答案。

Hao 此前曾擔任 Scale AI 的頂級工程師,這同樣是一家價值可觀的初創企業,專司 AI 系統的訓練工作。Yan 則剛剛從哈佛大學退學,他要求對此事保密,因為自己還沒跟父母通過氣。創始人還自述團隊共有 10 枚 IOI 金牌。

這樣的團隊已經獲得了彼得·蒂爾的 Founders Fund 基金領投的 2100 萬美元 A 輪融資。另外根據彭博社報道,前 Twitter 高管 Elad Gil 也參與了對 Cognition AI 的投資。

但 Cognition 如何在如此短的時間内取得重大突破仍然是個未解之謎。

Scott 拒絕透露太多關于該技術的底層細節,隻表示他的團隊找到了将 OpenAI GPT-4 等大語言模型(LLM)與強化學習技術相結合的獨特方法。Cognition 方面也拒絕透露 Devin 在多大程度上依賴于其他現有大語言模型。

Scott 在訪談中也依然表示不能透露更多關于 Devin 如何運作的細節。

所有涉及運作實作的部分,整個 Cognition 團隊都三緘其口,增加了神秘感的同時也讓外界對其更加懷疑,畢竟“Talk is cheap,Show me your code”已經成為大家共識。

原文連結:前 LangChain 員工爆料更強的 Devin 2.0 要來了?是以,“世界首個AI程式員”到底造假沒?_AI&大模型_褚杏娟_InfoQ精選文章

繼續閱讀