天天看點

機器學習---有監督和無監督

原創不易,轉載前請注明部落客的連結位址:Blessy_Zhu https://blog.csdn.net/weixin_42555080

機器學習:

機器學習(Machine Learning, ML)是一門多領域交叉學科,涉及機率論、統計學、逼近論、凸分析、算法複雜度理論等多門學科。專門研究計算機怎樣模拟或實作人類的學習行為,以擷取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。

它是人工智能的核心,是使計算機具有智能的根本途徑,其應用遍及人工智能的各個領域,它主要使用歸納、綜合而不是演繹。

例如,中學階段通過做大量的練習題,為的就是在聯考解決問題。聯考的題目一般來說是之前肯定沒有遇到過的,但是這并不意味着這些題目我們無法解決。通過對之前所做過的練習題的分析,找到解題方法,同樣可以解決陌生的題目。

機器學習其實就是将這一套方式運用到機器上,利用一些已知的資料來訓練機器(做練習題),讓機器自己分析這些資料,并找到内在聯系(學習解題方法),進而對未知的資料進行預測判定等(做聯考題)。

機器學習---有監督和無監督

監督學習:

對于機器學習來說,監督學習就是訓練資料既有特征(feature)又有标簽(label),通過訓練,讓機器可以自己找到特征和标簽之間的聯系,在面對隻有特征沒有标簽的資料時,可以判斷出标簽。

監督學習(Supervised Learning),用上述例子來解釋,就是聯考前所做的練習題是有标準答案的。在學習的過程中,我們可以通過對照答案,來分析問題找出方法,下一次在面對沒有答案的問題時,往往也可以正确地解決。

監督學習分為兩大類:

  • 回歸分析(Regression Analysis):如果拿二維平面來說,就是對已經存在的點(訓練資料)進行分析,拟合出适當的函數模型y=f(x),這裡y就是資料的标簽,而對于一個新的自變量x,通過這個函數模型得到标簽y。 -
  • 分類(Classification):訓練資料是特征向量與其對應的标簽,同樣要通過分析特征向量,對于一個新的向量得到其标簽。

    回歸分析與分類差別其實就是資料的差別就是回歸是針對連續資料,分類是針對離散資料。

非監督學習:

與監督學習相對的,是非監督學習(Unsupervised Learning)。

再舉高中做練習題的例子,就是所做的練習題沒有标準答案,換句話說,你也不知道自己做的是否正确,沒有參照,想想就覺得是一件很難的事情。

但是就算不知道答案,我們還是可以大緻的将國文,數學,英語這些題目分開,因為這些問題内在還是具有一定的聯系。

這種問題在機器學習領域中就被稱作聚類(Clustering),相對于監督學習,無監督學習顯然難度要更大,在隻有特征沒有标簽的訓練資料集中,通過資料之間的内在聯系和相似性将他們分成若幹類。

Google新聞按照内容結構的不同分成财經,娛樂,體育等不同的标簽,這就是一種聚類。

繼續閱讀