天天看點

《大資料架構和算法實作之路:電商系統的技術實戰》——第1章 方案設計和技術選型:分類 1.1 分類的基本概念

本節書摘來自華章計算機《大資料架構和算法實作之路:電商系統的技術實戰》一書中的第1章,第1.1節,作者 黃 申,更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。

聽完大寶關于第一點的描述,小明很肯定地說:“你們的商家應該是需要這樣的一個功能:在他們釋出商品的時候,系統會自動地為其推薦合适的商品分類,其界面示意圖如圖1-1所示。如果商家希望出售一台蘋果的mac pro筆記本電腦,輸入‘macbook pro’後,系統能夠自動為其提示最為相關的三個分類‘筆記本電腦’、‘筆記本配件’和‘其他數位’。這是由背景的分類算法來實作的,如果該算法足夠聰明,那麼它推薦的第一個分類就應該是正确的,商家隻需要點選選擇即可。這樣,既友善了商家的商品釋出,又避免了粗心大意而導緻的錯誤分類。而且,對于少數企圖違規操作的商家,如果他們選擇了和系統預設推薦相差甚遠的分類選項,其行為也會被系統記錄在案,然後定期生成報表,送出給營運部門進行核查。如此一來,人們就不用在紛繁複雜的類目中痛苦摸索,工作的效率也會大幅提升。”

“沒錯,這應該是商家願意使用的工具,如果真能實作那就太棒了。不過,你剛剛提到的分類算法是什麼?”

“分類,是一個典型的監督式機器學習方法”。

“哦,什麼是機器學習?什麼是監督式的學習?”

“現在,我們從頭來講,然後逐漸定位這裡的技術方案和選型。”

《大資料架構和算法實作之路:電商系統的技術實戰》——第1章 方案設計和技術選型:分類 1.1 分類的基本概念

好萊塢著名的電影系列《終結者》想必大家都耳熟能詳了,其中主角之一“天網”讓人印象深刻。之是以難忘,是因為它并非人類,而是20世紀後期人們以計算機為基礎建立的人工智能防禦系統,最初是出于軍事目的而研發的,後來自我意識覺醒,視全人類為威脅,發動了審判日。當然,這一切都是劇情裡的虛構場景。那麼現實生活中,機器真的可以自我學習、超越人類嗎?最近大火的谷歌人工智能傑作alpha go,及其相關的機器深度學習,讓人們再次開始審視這類問題。雖然目前尚無證據表明現實中的機器能像“天網”一樣自我思考,但是機器确實能在某些課題上、按照人們設定的模式進行一定程度的“學習”,這正是機器學習(machine learning)所關注的。機器學習是一門多領域交叉學科,涉及機率論、統計學、逼近論、凸分析、算法複雜度理論等多門學科。專門研究計算機怎樣模拟或實作人類的學習行為,以擷取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。機器學習在多個領域已經有了十分廣泛的應用,例如,資料挖掘、計算機視覺、自然語言處理、生物特征識别、醫學診斷等。

任何機器學習的任務大體上都可以分為資料的表示(或特征工程)、預處理、學習算法,以及評估等幾個步驟。《大資料架構商業之路》一書的6.1節和6.2節,已經詳細介紹了資料的表示和預處理。本篇将快速重溫幾種主流的機器學習方式和算法,然後重點闡述其實踐過程。這裡的算法包括監督式學習中的分類(classif?ication/categorization)和線性回歸(linear regression),非監督式學習中的聚類(clustering)。對于剛剛讨論的第一個業務需求,我們将運用分類技術。而對于小麗提出的第2個和第3個需求,我們将利用這些機會分别學習聚類和線性回歸,具體将在稍後的第2章和第3章分别探讨。

監督式學習(supervised learning),是指通過訓練資料學習并建立一個模型,然後依此模型推測新的執行個體。訓練資料是由輸入資料對象和預期輸出組成的。模型的輸出可以是一個離散的标簽,也可以是一個連續的值,分别稱為分類問題和線性回歸分析。分類技術旨在找出描述和區分資料類的模型,以便能夠使用模型預測分類資訊未知的資料對象,告訴人們它應該屬于哪個分類。模型的生成是基于訓練資料集的分析,一般分為啟發式規則、決策樹、數學公式和神經網絡。舉個例子,我們為計算機系統展示大量的水果,然後告訴它哪些是蘋果,哪些是甜橙,通過這些樣本和我們設定的模組化方法,計算機學習并建立模型,最終擁有判斷新資料的能力。

如果你覺得這樣說還是過于抽象,那麼讓我們繼續采用水果的案例,生動地描述一下“分類”問題。假想這樣的場景:将1000顆水果放入一個黑箱中,并事先告訴一位果農,黑箱裡隻可能有蘋果、甜橙和西瓜三種水果,沒有其他種類。然後每次随機摸出一顆,讓果農判斷它是三類中的哪一類。這就是最基本的分類問題,隻提供有限的選項,而減少了潛在的複雜性和可能性。不過問題在于,計算機作為機器是不能完成人類所有的思維和決策的。分類算法試圖讓計算機在特定的條件下,模仿人的決策,高效率地進行分類。研究人員發現,在有限的範圍内做出單一選擇時,這種基于機器的方法是可行的。如果輸入的是一組特征值,那麼,輸出的就一定是确定的選項之一。

“大寶,計算機的自動分類有很多應用場景,遠不止水果劃分這麼簡單,比如你們目前的這個需求:将商品挂載到合适的産品類目。當然還有郵件歸類、垃圾短信識别、将顧客按興趣分組等,這些都可以應用分類技術。”

繼續閱讀