最早是10年聽baidu的一位老師講資訊檢索課程,那一次對離散數學中的“二部圖”的使用場景,有了一個真真切切的認識。然後這個概念一直伴随着自己,到現在,并且在不同場所的聽課中,去詢問個一些講師,貌似都很“吃驚”“不清楚”“沒有做過”。我才知道這就是技術的差距。
應用中,二部圖就是語義推薦使用,系統是搜尋引擎,資料是二部圖結構,參數是“全部海歸的7-8個博士、頂級專業人才”。。。。然後帶着當時的疑惑,來到這裡,四處打聽相關技術,然後慢慢了解了,“曾經這是一家營運公司”“曾經這是一家資料庫公司”
“曾經這家公司都不怎麼用技術的”。。。。
自語語言學+領域學知識+社會學知識構成了“有效推薦”的三大基石。
自語語言初級:分詞、詞性标注
中級:本體、語料
進階:領域、主體的關聯和聚合
領域學:領域熱點、核心、焦點價值、商業模式
社會學:使用者行為、思考、互動等。
然後綜合起來就是,通過自然語言對文本聚類、領域下主體聚合,依賴領域學+社會學的關聯參數。
前面已經基本成熟,而後者成為難點。能做到第一點的已經很少,更别說後者了。
所有這一切的工具扭帶就是搜尋引擎!
想想未來可能就是搜尋+推薦的開發或者平台或者應用,自己已經在搜尋的路上打滾、積累,并介入文本處理,
是時候做更遠的準備了,本體、預料庫、領域結構化、領域屬性。。。
現在開始準備應該不晚吧,盡管從業界講是重複的,但在自己、在自己接觸了解的部門看,至少3年你是不會有
這種kpi、意識、結果的吧。有點誇張可能!----這裡是指一個平台型的、通用的知識庫。
當然,從搜尋廣告那邊看,他們已經有了非常多的工作了。這個可以從www.taobao.com首頁搜寶貝的時候,
輸入關鍵詞,然後在最上面的那個layout裡面就可以看到,對屬性的聚合+關聯的推薦。聚合直接可以通過搜尋
引擎輸出,而關聯的推薦,目前看可能來自:類目關聯性(來自query統計)、關鍵詞關聯性(來自query統計)
、領域屬性(需要知識庫了),類目和關鍵詞的關聯,從抽樣的手機、女裝、水晶
三個關鍵詞來看,效果還是不錯的,至少從展示結果的語義看是這樣的,實際是否促進點選或者成交還不清楚。對領域屬性的關聯推薦,應該通過類目關聯見接的有展現,同類目下的似乎很一般。例如,我搜
諾基亞,展示的結果中似乎并沒有領域的東西,而隻是展示
諾基亞的“屬性”+諾基亞品牌推薦+非諾基亞品牌推薦。是否需要展示,諾基亞充電器、諾基亞售後服務、諾基亞客服中心?諾基亞批發商?諾基亞電池?
公司從不為追求技術而技術,而是需求推動技術,還并且是出現瓶頸的時候,才開始推動下一個解決方案。
從解決問題優先和資源彙回報情況着手,超過3個月的結果,等不及了,更别說半年甚至一年了,或許是浮躁或者這就是it的特征,帶病前行或者發展經濟學,正合當下中國在發展中解決沖突同出一轍!
了解了并知道怎麼做,然後就順順的,面對現實坦然而不驚!