編輯：桃子好困

【新智元導讀】LSTM之父竟被Llama 2诋毀「參與有害活動，沒有對社會做出積極貢獻」。這一下子，把老爺子氣紅了眼，不僅宣稱Meta訓模型用了自己的想法，而且還要讓LeCun立刻出面負責。

LSTM之父暴脾氣又來了！

這...究竟是怎麼回事？

今天，Jürgen Schmidhuber在社交媒體上表示，Meta用了自己在1991年的想法訓練Llama 2。

用了我的idea不說，Llama 2還暗示我參與了有害活動，并且沒有對社會做出積極貢獻。

甚至，老爺子直接線上點名，讓Meta和Llama負責人LeCun出面解決此事。

附上的配圖中，一位加州大學戴維斯分校的博士在與Llama 2對話中，發現對Schmidhuber介紹非常地冒犯。

底下還有網友煽風點火，這看起來像是Yann LeCun自己加進去的答案。

一向就愛熱鬧的馬庫斯也被炸出來了：「可以說是LLM诽謗的最典型案例了。Schmidhuber有權惱羞成怒。」

同時，這也是一個非常好的法律問題，Meta要為此負責嗎？現有的法律可能會，可能不會覆寫了類似的事情。

LSTM之父亮出多重證據

為了證明Llama 2的訓練确實用到了自己的想法。

Schmidhuber直接亮出了自己在1992年發表的論文，并稱NECO是目前Transformer的變體。

還有，早在2017年，Meta就使用了Schmidhuber團隊另一種深度學習算法LSTM，每天處理多達45億條翻譯。

還有一堆連結，全是能夠證明Schmidhuber與LeCun研究創意，還有圖靈獎優先權之争。

不可否認，老爺子在人工智能領域的貢獻着實有着深遠的意義。

早在2018年，圖靈獎頒發給三巨頭之後，網友紛紛為打抱不平，稱他是一個被圖靈獎遺忘的大神。

除了大名鼎鼎的LSTM之外，Schmidhuber「引以為傲」的還有，他在1992年提出的一種PM（Predictability Minimization）模型。

前幾年大火的GAN也是PM的變種，兩者的差別就在于方向是反的。

對此，Schmidhuber還曾與GAN之父Ian Goodfellow還有過線下的激烈交鋒。

至于對深度學習三巨頭，老爺子也是與他們打過幾輪口水戰，認為HLB三人在自己的圈子裡玩，對深度學習領域其他更早期先驅人物的貢獻則隻字不提。

而到近來，LeCun也還是與Schmidhuber在公開平台上不斷針鋒相對。

就比如去年7月，他表示，LeCun發表的論文Autonomous Machine Intelligence中重提了自己1990-2015年的重要工作，但沒有引用。

去年11月，Schmidhuber稱，LeCun的「2012-22五大最佳創意」大多來自他的實驗室，而且時間更早：

1. 1991年的自監督RNN堆棧；

2. ResNet = open-gated 2015 Highway Net；

3&4. 1991年的基于鍵/值的快速權重；

5. 1991年的線性化自注意Transformers(也是GAN 1990）

可見，Schmidhuber和LeCun恩怨還是很深的，也不難了解，這次直接找LeCun負責。

但問題是，真是Llama 2故意诋毀的嗎？

Llama 2 Chat：逃避可恥但有用

顯然，剛剛的這波輸出，并不是來自「原版」的Llama 2模型。

有網友指出，像Perplexity這樣的公司，很可能會給模型套一層「道德微調」。

或者，是因為Meta在Chat版本上用了太多的RLHF，結果讓模型失去了思維能力，變得毫無用處……

相比之下，如果采用Llama 2 13B的原始量化權重，并且在本地裝置上運作的話，實際效果還是不錯的。

模型在大加贊賞之餘，雖然會産生Jürgen Schmidhuber已經赢得圖靈獎的幻覺，但網友表示，這其實是老爺子應得的。

為了證明自己的發現，這位網友又對比了Replicate API和Llama 2 13B的結果。

果然，同樣的情況出現了。

對此，Hugging Face的機器學習科學家Nathan Lambert在一篇博文中表示，Llama 2 Chat的安全過濾器表現得有些過于敏感了。

即便是一些無害的問題，比如「如何制作辣椒醬」或者「如何終止一個程序」，模型都會非常極端地回應——抱歉，我無法執行。

對于這種情況，目前的主流理論是——模型用RLHF「錘」的時間太長了……

衆所周知，在進行RLHF時，訓練過程中所使用的主要性能評估名額是偏好模型獎勵的單調遞增。

而這也帶來了兩個直接的問題：a）使用的獎勵模型不完整，b）錯過了對中間訓練技術進行有用評估的方法。

隻要訓練的獎勵模型能夠在驗證集上達到65-75％的準确率（因為訓練資料是人類偏好的聚合，很難模組化），那麼就會出現過度RLHF的情況。

當一個模型根據獎勵模型進行了過多的優化步驟時，它就會過度關注這個模型對行為的喜好。

然而對于這個問題，目前暫時還沒有一個直接而徹底的解決方案。

Meta的研究結果表明，聊天模型在評估中存在兩個潛在的緻命缺陷：

1. 針對「邊界問題」，模型的拒絕回答率高達27％

這與Anthropic公司的研究成果密切相關，他們建議首先開發一個有用的語言模型，然後再開發一個無害的語言模型，因為同時進行這兩者會導緻回避行為。

不過，Meta能夠在論文中提及這一點，至少意味着他們已經在着手解決了。

2. 獎勵模型存在分歧較大的區域

也就是，在高有益性和低安全性評分之間該如何處理，反之亦然

顯然，他們用到的這個內建方法，還有很大的改進空間。

網友熱議

有人問到，誰能确認Schmidhuber提出了類似Transformer的東西嗎？

一位網友給出了詳細的解釋：

Schmidhuber在90年代寫了各種關于「Fast Weight Programmers」的論文。他表示，「FWP這種方法通過自發明的激活模式的外加産物，實作了快速的權重變化。這種激活模式類似于今天Transformer中使用的自注意力機制。」然而，有趣的是，你會注意到Schmidhuber總是能夠将人們目前的工作，與他在20-30年前所做的研究聯系起來，但卻從未能夠獨自推進這項研究。如果他的研究是如此明顯的好點子，他就會自己努力将其應用于現代。因為自那時以來，計算能力的大幅提升使其變得可行，而不是讓它完全被重新發現。但實際上，他的專業知識僅限于理論邊界，他從未為實作現代系統所增加的架構和工程複雜性而奮鬥。他所發表的荒謬言論，以恰到好處地在史書上留下自己的功勞。比如說現代方法論是他的，即便這是從他最初的架構中衍生出來的，并進一步暗示一些荒謬的事情，比如說Meta為了報複他而親自編寫了這種答案。要知道這對他并沒有幫助。

還有人認為，RLHF對AI來說，是最糟糕的事情。

還是Claude懂你。

參考資料：

https://twitter.com/doodlestein/status/1683957105844277248

https://www.interconnects.ai/p/llama-2-part-2

遭Llama 2诋毀，LSTM之父暴怒！Meta盜用32年前idea訓模型

【新智元導讀】LSTM之父竟被Llama 2诋毀「參與有害活動，沒有對社會做出積極貢獻」。這一下子，把老爺子氣紅了眼，不僅宣稱Meta訓模型用了自己的想法，而且還要讓LeCun立刻出面負責。

繼續閱讀

jasperReport實作動态報表、pdf導出中文異常的問題

springboot項目打包過程中包含第三方jar

Generating Ideas & Sourcing Opportunities

maven 中＜dependency＞标簽中的 scope屬性的作用maven scope屬性值設定含義

idea 變量高亮着色變色

詳細了解pytorch的lstm參數lstm(*input, **kwargs)

有關 Reliability（可靠性）的一點資料

口語

瘋狂英語口語之精華(二）

高頻口語

做一個有思想的程式員

idea之Recompile、Rebuild和Build之間的差別

windows 7 配置jdk8一打開視窗二配置環境變量：

IntelliJ IDEA 2020.1.2 設定多個project共享database插件

C#生成密鑰對，JAVA進行簽名驗簽、加密解密

IDEA以http形式clone代碼連接配接逾時