智能推薦撐起下一代網際網路

智能推薦引擎的基本邏輯是什麼？熱門、興趣、地域、探索四大政策邏輯，預測群體的行為。

　　智能推薦爆紅于資訊産業是因為啥？海量資訊帶動海量回報資料推導出精準算法。

　　智能推薦會幹掉媒體人麼？永遠不會，但鴻溝已定，玩法必改。

　　智能推薦的未來是什麼？除了以社交為衍生的資訊入口外，以擷取資訊為目的的第二個資訊入口。

　　前幾天，我和老蔡做了一番極度嚴肅與技術型的對話，被360度全面科普了一番。

　　老蔡是誰？蔡明軍，技術極客一枚。

　　工程師出身，搞過航天921項目、開發過大型網站、參與過搜狗搜尋引擎的設計研發、做過線上教育，十多年的網際網路技術研發經驗，目前是搜狐内容推薦引擎的負責人，該引擎已經在搜狐新聞用戶端上落地，取得了不錯的效果。

　　作為半隻腳踩在媒體裡的技術達人，他對媒體的判斷，少了點情懷和虛僞，多了點邏輯和算法——也許，未來一個這樣的技術人員抵得過二十個報業集團的影響力，或者說，現在已經有這樣的苗頭。

　　和老蔡的對話，是我近日最有收獲的一次。

　　我照樣寫的照樣很長，我照樣建議你，先儲存下來，看不懂沒事，再讀上三遍，絕對有價值！定有當頭棒喝的效果！媒體從業者可以看到技術的颠覆浪潮，技術人員可以看到資訊産業的潛在作用。

　　——以下為正文，第一人稱口述體——

　　一問老蔡：為什麼智能推薦的市場突然爆發，上有過億級使用者的追捧，中有巨頭的不斷占位，下有巨量資本投入？這件事真的那麼重大，那麼靠近大勢麼？

　　智能推薦，很多人看的這個說法的第一反應是，這玩意靠譜麼？

　　要回答這個問題，回顧一下智能推薦的誕生和發展就知道為什麼會這樣了。

　　1、需求驅動産生了智能推薦

　　網際網路早期的資訊門戶是第一個成功的産品。它其實就是由編輯人工整理PUSH出來的一堆連結堆疊在網頁上。在資訊匮乏的時代，這已經可以滿足絕大部分使用者的心智需求。

　　時間往後推，十幾年的時間裡，網際網路資訊不斷爆發，人們擷取資訊的深度、廣度和頻度都獲得極大提升。簡單堆砌的門戶資訊已經不能滿足需求。這時候出現了RSS訂閱，号稱資訊閱讀的革命，代表産品是google reader。由于每個人訂閱的資訊源不一樣，最終看到資訊清單也全然不同，使用者在這裡體會到了個性化的資訊服務。

　　但是RSS訂閱最終還是死掉了，為什麼？因為你要會使用訂閱工具，還要能找到訂閱源，兩道門檻把小白人群擋在了門外，隻适合精英人群玩耍。使用者量起不來，市場不認可，自然就廢掉了。

　　RSS死掉了，但卻讓使用者體驗到個性化資訊服務是多麼的美妙。讓使用者自主訂閱有門檻，那由機器主動推薦就順其自然誕生了。

　　亞馬遜網站出現的購物推薦，開啟了機器智能推薦的時代。由此衍生出了現在新聞、音樂、書籍、社交等各種類型的智能推薦引擎。

　　2、技術積累給智能推薦效果提供了保障

　　有需求在，但如果技術上達不到可用性要求，那也是白搭。

　　早期計算機計算能力有限，可擷取的使用者資料也有限，推薦算法大都是在實驗室環境下做學術研究，真正商用還有比較大的風險。随着網際網路的高速發展，特别是搜尋引擎相關技術的發展，計算能力已經不是問題，而且大規模的使用者資料收集也已經不是難事。這樣基于大樣本資料的實時分析處理系統（大資料）可以快速分析出群體行為的機率分布，再将這些機率分析應用到個體使用者上，就産生了智能推薦的體驗。例如搜狗的雲輸入法，基本原理很簡單，就是通過機率計算你要輸入的下一個字可能是什麼。但這在背景需要一個龐大而複雜的實時分析處理系統。

　　另外對人類語言及語義的計算機識别處理，有一門專門的學科叫自然語言處理，也有的叫計算語言學。之前主要研究的領域是自然語言的機器翻譯，它的基本邏輯就是通過機器學習和訓練，通過統計分析大量人類已有的文章、句子、詞彙和詞彙之間的機率分布情況是什麼，根據語義來配對。中科院、微軟、谷歌等大機構都投入大量資源在做研究，發了大量的paper，取得了非常不錯的效果。

　　學術研究在前，商業應用在後，給智能推薦的效果提供了堅實的技術基礎。

　　3、移動網際網路成為智能推薦大爆發的導火索

　　自從亞馬遜推出商品推薦之後，各種類型的網站都在跟進和不斷完善各自的推薦引擎。典型的如Hulu和淘寶都大量應用了智能推薦。但不管怎麼用，他們的智能推薦仍然處于輔助路徑上。

　　但進入移動網際網路時代，智能推薦已經開始從輔助路徑轉變到主路徑上。比如手機淘寶，其首頁的商品推薦已經是個性化的，極大提升了首頁的分發能力。還有最近官司不斷的今日頭條，其主打特色也是将資訊的智能推薦放入産品的主路徑上。為什麼會有這樣的變化呢？因為它是在移動端。

　　PC由于螢幕足夠大，一屏可以顯示密密麻麻的内容和連結讓使用者去選擇，這種版式閱讀來自于報紙閱讀習慣的延伸，小白使用者們挺習慣的。資訊量給少了，他們還不習慣，認為你虧待他們了。可到了移動端手機螢幕上，如果照搬版式閱讀的頁面布局，使用者一定會瘋掉的。而且在TWITTER和FACEBOOK的教育下，不斷滑動的Feed流形式已經被絕大多數使用者接受和認可，流式閱讀已經成為标準的移動端閱讀習慣。在移動場景下，如果不能盡快給到使用者感興趣的内容，那這個産品離死也就不遠了。面對海量資訊和碎片化的流式閱讀，編輯人工排版已經力所不及，智能推薦自然就擔當起主路徑的角色。

　　另外，移動端裝置被叫做“人的自然衍生”，一部手機預設就是一個自然使用者。它相比PC，系統可以獲得更多更大量的使用者行為資訊，這樣讓智能推薦的效果更加有保障。

　　在移動端的産品中，如果沒有基于大資料分析的智能推薦邏輯，都不好意思說自己是移動産品。你說智能推薦靠不靠譜？現在做産品的早就不讨論智能推薦靠不靠譜的事兒，而是琢磨怎麼讓它更靠譜。

　　二問老蔡：為什麼使用者會看到智能推薦出來的東西，往往熱門但是三俗内容一大堆？甚至有人總結了一首打油詩：“低俗段子傳播廣，中華酷聯争議忙，小米錘子對罵爽，蘋果水軍非常強，汽車評測話凄涼，奇葩趣聞撸管王，何為頭條新熱點，還得要看黨中央。”

　　三俗的東西最熱門，這個基本不用資料挖掘，就知道結果肯定會是這樣。

　　道理很簡單，按照馬斯洛的說法，人的需求有五個層次，三俗是低層次的需求，卻也最普世。就像收視率被稱作萬惡之源，點選率絕對不能成為智能推薦引擎的唯一标準。比如你如果用娛樂新聞和科技新聞的點選量和點選率做直接對比，那根本就是不公平的。

　　（潘越飛：陽淼在采訪騰訊網副主編的《整合微網誌後，騰訊門戶怎麼走》中提到，騰訊門戶當年也做個性化，結果最後基于個性化比對出來的内容都是新聞中的垃圾食品，獵奇新聞、黃賭毒，然後是美女圖檔、八卦、奇聞、謠言等，“垃圾食品大家都知道不好，但很多人都愛吃”。）

　　當你能找到使用者差別于三俗内容的興趣點時，就不會唯點選率論了。

　　回到使用者覺得推薦效果不夠好這件事上，我覺得主要有兩個原因：

　　1、每個人對推薦的了解不一樣，會産生以偏概全，武斷地認為推薦效果很差。

　　2、由于技術的局限性，産品的過度宣傳導緻使用者的過度期望。

　　之前看有人寫過一篇看衰智能推薦的文章，很有代表性。正好我也總結一些大家對智能推薦普遍的疑問或誤解，簡單做下回答。

　　1、智能推薦會不會越推越窄，讓你成為井底之蛙？

　　答案當然是肯定不會。但經常會有朋友給我舉一些例子（行内稱之為“BadCase”），比如：我看了幾篇馬航MH17的文章後就一個勁的被推薦馬航MH17的資訊，而我其實更關心烏克蘭局勢對美俄歐三者關系的影響。這個BadCase試圖想說明智能推薦引擎的“弱智”。其實，這個Case到底是不是BadCase還需要看推薦場景。如果是在某篇馬航事件的“相關推薦”中出現那屬于正常的。而如果是在推薦主路徑上過于頻繁，那就确實不應該了。

　　但這樣的推薦引擎應該不是合格的推薦引擎。因為如果僅僅簡單依靠直接回報來做推薦，那根本不能稱之為智能引擎。推薦引擎的多樣性是很重要的名額，越推越窄是設計之初就要力圖避免的。

　　在此順便介紹我們推薦引擎的四種類别的推薦政策：熱門引擎，即尋找和你相關的近期的熱門資訊，它比較注重新聞性；興趣引擎，即尋找你興趣點範圍内的資訊内容，他比較注重内容和興趣的長尾特性，力圖捕捉到你特别個性的一面；地域引擎，即根據使用者經常停留的位置做本地化區域資訊的推薦，它比較偏重日常生活類資訊；探索引擎，即基于使用者行為的深度挖掘及人際關系，依據一些内在的隐形關聯關系做推薦，挖掘使用者未知的興趣點，适度擴散性的推薦資訊，并根據使用者的實時回報不斷修正，正确的就遷移到其他推薦政策上去。

　　對每個人來說，這四種政策引擎都同時存在。隻是根據算法模型做個性化的權重配比。如果你覺得很多内容不适合你，那應該就是配比的比例出現了問題。

　　2、人心難測，機器怎麼可能了解我？

　　這個質疑屬于偷換概念。推薦引擎不是心電圖也不是測謊儀，更不是貼身心理分析師或保姆，順着你的脾氣，看看你今天高興了，明天失戀了，分别都需要看點什麼。

　　推薦引擎的邏輯，還是通過挖掘群體使用者的行為規律和個體曆史行為的資料做行為分析和預測。這其實和我們人類觀察了解事物是一緻的，就是我們常說的“聽其言觀其行”。如果你都不參與推薦引擎的互動，僅僅以個人的某一單一感受去判定智能推薦引擎的好壞，這是不公平的。

　　平常會有很多人跟我們團隊回報問題，說這個推薦的不好，那個推薦的怪異。我們首先會積極把問題收集上來，作為我們的BadCase，然後逐條去做分析，找到問題的緣由，再回歸到資料模型上去做調整測試。

　　再說了，人心本就難測，千古難題，機器怎麼可能做到，絕對的捧殺。

　　3、智能推薦的内容品質無法保障，控制不了垃圾内容？

　　不管是編輯還是機器，高品質内容的辨識能力一直是個長期命題。

　　智能推薦引擎的底子是搜尋引擎，是以搜尋引擎擁有的反垃圾能力它也都具備。但推薦引擎是在和編輯人工清單做對比的，使用者對垃圾的敏感度遠高于搜尋引擎。

　　但世界就是這麼奇妙，由于推薦引擎的強互動性，可以通過使用者的選擇進行動态篩選，把垃圾内容快速洗出去。是以，智能推薦有自己一整套自己的内容品質控制體系。

　　當然漏網之魚不是沒有，但更多的情況是推薦政策不合理導緻的不比對。同樣的内容，對你來說是垃圾，對别人來說是寶貝，彼之砒霜他之蜂蜜。推薦引擎的政策優化是個長期而且持續的過程。

　　4、智能推薦是人與機器的互動，沒有人與人的互動，冰冷可怕？

　　其實恰恰相反。在具體實踐中，推薦引擎在反複使用人與人之間的關系屬性。

　　但它是個隐形的功能，不容易展現出來。例如，當你看了兩篇文章，推薦引擎就找到同時看過這兩篇文章的使用者又看了哪些文章，并将閱讀幾率最高的文章推薦給你。有可能前面兩篇文章一篇講馬航MH17空難，一篇在講俄羅斯與歐盟的博弈，而推薦出來的是美國的亞太再平衡戰略。

　　還比如，你去九寨溝旅遊，而推薦引擎會把在九寨溝的人普遍都看那篇文章推薦給你。

　　這種推薦充分利用了人與人之間的興趣屬性或地域屬性之間的關系，我們也叫做協同推薦。

　　從效果來看，基于人與人之間的關系推薦的内容，要比純粹通過語義分析進行推薦更好。你在推薦引擎上隻看到了結果，但千萬不要武斷地說，推薦引擎就是靠機器在瞎猜，因為幂幂之中必有緣由。

　　5、人是一個變化的動物，曆史并不能代表将來？

　　“狗改不了吃屎”這句話說得俗了點，但是點破了推薦引擎的一個重要邏輯：人的确會變，但有一些長期規律性的東西很難改變。

　　推薦引擎在設計時，會按照長期和短期進行辨別，有一定梯度，來适應人的變化。我們有秒級的算法模型更新，也有按天、按月的長期算法模型更新。

　　比如：你剛看了一眼馬航，引擎會再次推薦馬航相關的新聞。但引擎并不認為馬航代表你的長期興趣，而隻是當下的熱門，是以才會适當的給一些，這是短期行為的捕捉。短期行為的興趣會随着時間流逝而慢慢消退掉。推薦引擎不怕變，而怕不變。

　　三問老蔡：智能推薦引擎會幹掉媒體人麼？會出現那些加工廠裡面的情況一樣，勞工在流水線上的位置被一排排的機械臂代替，導緻大批量失業麼？算法和工程師幹掉了整個編輯部，這是科（JI）幻(SHU)故(REN)事(YUAN)和恐(MEI)怖(TI)小(REN)說(YUAN)中都說會出現的場景。

　　我很堅定的說，肯定不可能出現，至少在有生之年，哈哈。

　　由于近代科技的發達，人和機器的關系，一直存在某種微妙的關系。電影故事裡，經常出現人機大戰，但機器最後都打不過人，因為人會産生很多變量。機器再智能，也隻是接近人，人的價值是無可替代的。

　　我們必須要學會去發現每個事物的特點。

　　機器對于規律性的行為挖掘興趣挖掘有優勢，但對于價值觀的辨識、社會發展局勢的判斷、大事件的捕捉則鞭長莫及；而人工對于長尾興趣人群的識别和内容比對則是不可完成的任務。在智能推薦這件事上，本因是人力不可及，同時需求越來越強烈，才有機器去補位。

　　以上說的是背後的大邏輯，那麼，在智能推薦主路徑化的時代，傳統媒體人又應該怎麼辦呢？我有五個大概的建議。：

　　1、媒體人必須正視這種變化。不要躲避，不要盲目悲觀，也不要仇恨（潘越飛：印刷機誕生之初，有傳教士寫了洋洋灑灑一本書，大談謄寫者才能感受到智慧與文字的靈性，機器破壞了神聖性，為了讓自己的觀點被更多人看到，這個傳教士選擇用印刷機來出版這本反對印刷機的書。這個黑色幽默，是很多保守派面對創新裝置時典型的糾結狀态。）。

　　2、媒體人必須強化原創的能力，生産和發現獨特内容。從無到有的過程，人能做，機器做不了。到目前為止，的确有通訊社在嘗試機器寫作，那些内容都是快訊類，有深度的、原創的、獨家的内容，一百年之内都生産不了。

　　3、媒體要學會使用新的内容營運工具。在使用智能推薦引擎來做分發的環境下，新的内容營運工具肯定不是現在CMS背景這樣了，但具體是什麼樣，我們也在試驗和嘗試（我準備寫一個，以後傳統意義上的編輯沒有存在價值了，系統内的營運人員才是核心，這是我一年多來的實踐心得。）從産品角度來說，這一套全新的内容營運工具的出現則标志着變革，其重要性不亞于使用者端産品的變化。

　　4、媒體本身是需要品牌的，機器很難有獨立的品牌内涵。品牌認可度上，使用者對媒體的判斷與定位，影響到他接受到資訊後的接受度。

　　5、媒體與使用者之間的互動交流，建立粉絲群體，這也是機器做不到的。

　　總之，是媒體要回歸到人的屬性上去，放大人和機器的差別。

　　另外，在具體實踐過程中，我也經常對研發人員講：千萬别軸，别想當然。對于自認為精妙的算法别認為天然就是完美的，必須需要通過原型驗證、小樣本集測試、大樣本集試用這樣的嚴謹流程才能廣泛推廣。而對于編輯人工排布的資訊，你可能認為他們在自我YY，但實際上有你不了解的特殊考量。

　　對于使用者來說，他根本不在意是編輯推薦還是機器智能推薦，體驗爽就夠了。目前在搜狐新聞用戶端的實踐過程中，已經主動開始越來越弱化“推薦”的标簽，盡量讓使用者感覺不到誰做的推薦。

　　讓編輯做好精華的頭部資訊，即大熱門、大事件；讓機器做好長尾資訊、大流量的内容分發。人工和機器互相取長補短，共同為使用者維護一個完整的資訊流，既有價值觀的屬性，也有長尾的分發能力。不要過于偏激的去迷信什麼，不要認為這是被迫妥協了，實際上，這樣的混合模式才更符合社會現實和使用者需求。

　　往後，人在發行上耗費的精力更少，精力集中在發現、原創、品牌、互動等更偏向于人的屬性。如果，你非要去搶發行的事，那就是以肉身去抵抗鋼鐵洪流，必敗。

　　凱撒的終歸凱撒，上帝的終歸上帝。

　　四問老蔡：媒體的未來，會在智能推薦引擎的影響下，變成什麼樣？

　　1、智能推薦引擎卡位在門戶和搜尋中間

　　智能推薦引擎是搜尋引擎的同胞兄弟，他們的底層邏輯基本一緻。差別在于，搜尋引擎需要使用者主動輸入關鍵字，推薦引擎不需要輸入關鍵詞，輸入的是使用者的行為。

　　當年網際網路剛起來的時候，新聞資訊是剛需，門戶迅速崛起，百度那時候是給門戶打工的，他們都是使用者擷取資訊的工具，搜尋靠使用者輸入關鍵字，門戶靠使用者眼睛掃，一個使用者拉一個編輯推，這是兩個邏輯幹了一件事——資訊的擷取。推薦引擎也是在做同一個事。

　　我個人會把推薦引擎放在門戶和搜尋引擎中間的位置。智能推薦引擎比搜尋引擎更媒體化，比門戶更技術化。

　　2、智能推薦引擎利好于使用者、廣告主和自媒體

　　媒體一般會有兩個大的環節，内容生産和内容發行。

　　而推薦引擎是内容發行的一次變革，極大的提高了發行效率，原本的門戶模式時，一天生産十萬條消息，真正能被看到的沒幾條，推薦引擎把熱門和長尾内容都送到了使用者面前。使用者因為推薦引擎主動為自己做個性化适配而更有效率地獲得資訊，是以而得利。

　　另外一個獲利的對象是廣告主。推薦引擎用海量細分的内容幫廣告主細分了使用者，讓廣告投放更精準；而且在資訊流裡的原生态廣告投放效果更好。

　　在内容生産層面，由于智能推薦引擎能夠比編輯有更強的内容細分的發行能力，這樣讓内容生産者的内容更容易呈現在合适的使用者面前，特别是自主原創者。這對自媒體是個好事。人人都是自媒體不是一句口号而已。

　　3、未來的資訊内容會有兩個入口

　　一個是以社交關系衍生的資訊入口，一個是以擷取資訊為目的的資訊入口。

　　資訊内容的含義很廣泛，做好資訊入口會有很大的想象空間。

　　另外，對于火爆一時的微網誌，我非常不看好。它是基于關注的淺層次訂閱邏輯，做的不倫不類，有些四不像，既不是基于社交關系的内容聚合，也不是基于内容關系的聚合，垃圾内容泛濫，Feed流越來越雜，越看越難看了。

　　4、智能推薦引擎的終極目标，不是幫助使用者kill time消磨時間，而是save time節省時間。

　　推薦引擎的篩選做的越精準，使用者的閱讀時間更有效。當使用者覺得推薦引擎的确能夠幫他節省時間，入口的效應也就出來了。

智能推薦撐起下一代網際網路

繼續閱讀

網際網路商規-part2

ElasticSearch：部署ElasticSearch & Kibana

TF-IDF超級算法概述

關鍵詞權重的量化方法TF/IDF

seo技巧篇

JS 跨域請求

最新資料：微信及WeChat月活12.5億多，2021年第二季遊戲收入430億元

ubuntu設定全攻略

超詳細robots.txt寫法大全和禁止目錄收錄及指定頁面

正确了解和判斷PR劫持的方法（站長必看）

傳說中比google和百度牛的十佳搜尋類網站

百度、新浪、Mixi、Apache社群贊助的開源key-value分布式存儲系統[轉載]

門戶通專訪月光部落格：第一部落格是如何打造成的

門戶通專訪草根站長九天狼：做站貴在堅持

專家訪談：搜尋開源力量：Lucene技術前景

30天了解30種技術系列---(10)面向Cloud的搜尋引擎 ElasticSearch