天天看點

每個産品經理都應該知道的機器學習術語

公司正在上馬AI項目?或許你已經熟悉了機器學習的世界,但是仍然希望擴充你的知識面,并且了解你所聽到的所有關于機器學習的術語,争取在和别人交流的時候不會呆呆的站在那裡啞口無言。

本機器學習術語表旨在簡要介紹最重要的機器學習術語,無論你是對商業還是技術感興趣。這絕不是詳盡無遺,而是在與AI總監或供應商會面前能夠進行簡單的交流——或者是在面試前快速回顧這些重要的知識點!

每個産品經理都應該知道的機器學習術語

概述:

自然語言處理(NLP)是各種機器學習方法的一種常用概念,它使得計算機可以使用人類(即自然)語言來了解和執行操作。

每個産品經理都應該知道的機器學習術語

自然語言處理最重要的用例是:

此任務的目标是預測文檔的類别(标簽),或根據文檔的相關性将文檔排列在清單中。它可以用于垃圾郵件過濾(判别電子郵件是否是垃圾郵件)或内容分類(從網絡上選擇有關你競争對手正在做什麼事情的文章)。

情感分析旨在确定某個人對于某個主題的态度或情緒反應——例如正面或負面的态度、憤怒、諷刺。它正在廣泛用于客戶滿意度研究(例如分析産品評論),這對于每一家公司都是非常重要的。

檔案彙總是一組用于建立對長文本(即檔案或研究論文)的簡短而有意義的描述的方法。

命名實體提取算法處理的是非結構化文本流,并識别其中的對象(實體)的預定義類别,例如人員、公司名稱、日期、價格、标題等。它通過将非結構化資訊轉換為結構化,表格式(或JSON)形式。

語音識别技術用于确定說話人的音頻信号的文本表示。你可能聽說過Siri,天貓精靈,他們都是如何使用語音識别的一個很好的例子。

自然語言了解用于将人類生成的文本轉換為計算機可解釋的表示形式,反之亦然:自然語言生成技術支援将形式邏輯表示轉換為人類生成的文本。目前,NLG和NLU主要用于聊天機器人和自動報告生成,也有一些大神,将它們應用于藝術創作。從概念上講,它與命名實體識别相反。

機器翻譯是将文本或語音從一種人類語言自動翻譯成另一種語言的任務,今天的谷歌翻譯已經利用機器學習做的很不錯了。

每個産品經理都應該知道的機器學習術語

資料是機器學習的重要組成部分。如果你想建立任何機器學習系統,你需要擷取資料(例如來自某些公共資源)或自行收集資料。所有用于建構或測試ML模型的資料都稱為資料集。基本上,資料科學家将他們的資料集分成三個獨立的組:

·        

訓練資料:

訓練資料用于訓練模型。這意味着ML模型可以獲得資料并學習檢測模式或确定哪些特征在預測期間最為重要,訓練資料的任務是幫助機器學習模型定參數。

驗證資料:

驗證資料用于調整模型參數并比較不同模型以确定最佳模型參數。驗證資料應與訓練資料不同,它不應在訓練階段使用。否則,該模型會過度拟合,并且不能很好地推廣到新的(生産)資料。

測試資料:

這個過程看起來可能很乏味,但總是有第三個最終測試集(通常也稱為“Hold-Out”)。一旦選擇最終模型來模拟模型在完全看不見的資料上的行為,即在構模組化型時不使用的資料點,或者甚至在決定選擇哪個模型時使用它。

計算機視覺(CV)是一個人工智能比較關鍵的領域,它涉及提供分析和進階圖像和視訊資料了解的工具。CV中最常見的問題包括:

圖像分類是教模型以識别給定圖像上的内容的CV任務。例如,可以訓練模型來區分公共空間中的各種物體(可用于自駕車)。

對象檢測是一種CV任務,通過在給定類的每個執行個體周圍提供邊界框來教導模型從一組預定義類别中檢測對象的執行個體。例如,可以使用對象檢測來建構人臉識别系統。然後該模型能夠在圖檔上檢測到的每個臉部周圍繪制邊界框。(順便說一下,圖像分類系統隻能識别圖像上是否存在人臉,而不能檢測到物體在哪裡,就像物體檢測系統所能做的那樣)。

每個産品經理都應該知道的機器學習術語

圖像分割是一個CV任務,其中某個人訓練一個模型,用一個給定像素最可能屬于的預定義集合中的類對每個像素進行注釋。

每個産品經理都應該知道的機器學習術語

顯着性檢測是訓練模型以提供最有可能引起觀看者注意的區域的CV任務(即檢測人類最感興趣的區域)。這可以用來确定視訊中的廣告展示位置。

監督學習是一個機器學習模型家族,通過一些示例自我教導。這意味着監督ML任務的資料需要标記。例如,如果我們想建立一個機器學習模型來識别給定的文本是否與市場營銷有關,那麼我們需要為模型提供一組标注示例(文本+資訊,如果是關于市場營銷與否)。給定一個新的,看不見的例子,該模型預測其目标 - 例如,對于所述示例,标簽(例如,如果文本是關于市場營銷,則為1,否則為0)。

與監督學習相反,無監督學習模式通過觀察來自我學習。提供給這種算法的資料是未标記的(算法沒有給出真實值)。無監督學習模型能夠找到不同輸入之間的結構或關系,最重要的一種無監督學習技術是“聚類”。在聚類中,給定資料後,模型建立不同的輸入叢集(“相似”輸入在同一個叢集中),并且能夠将任何新的,以前未見過的輸入放入适當的叢集中。

每個産品經理都應該知道的機器學習術語

強化學習與我們之前描述的方法不同。在RL中,該算法起着“遊戲”的作用,其目的是最大化獎勵。該算法通過反複試驗嘗試不同的方法“移動”,并檢視哪個方法提高了最大的利潤。

最常見的RL使用案例是教計算機解決魔方或下棋,但更多的是強化學習而不僅僅是遊戲。最近,實時出價中的RL解決方案數量不斷增加,其中模型負責為廣告投标,其回報是客戶的轉化率。

神經網絡是一個非常廣泛的機器學習模型。它們背後的主要想法來源是模仿人腦在處理資料時的行為。就像連接配接人腦中真實神經元的網絡一樣,人造神經網絡由層組成。每一層都是一組神經元,所有這些神經元都負責檢測不同的事物。神經網絡按順序處理資料,這意味着隻有第一層直接連接配接到輸入。随後的所有圖層都基于前一層的輸出檢測特征,這使得模型随着層數的增加可以學習更多更複雜的資料模式。當許多圖層快速增加時,該模型通常被稱為深度學習模型。現在很難确定一個網絡被認為很深的特定層數,10年前它曾經是3層,現在是20層左右。

每個産品經理都應該知道的機器學習術語

神經網絡有許多不同的變體。最常用的是:

·                

<b>卷積神經網絡</b>:這是計算機視覺領域中的一個巨大突破(但最近,它在NLP問題中也被證明非常有用)。

<b>經常性神經網絡(</b><b>RNN</b><b>):</b>設計用于處理具有序列性質的資料,例如文本或股票價格。它們相對較舊,但随着近20年來現代計算機的計算能力急劇增加,它們變得可以在合理的時間内進行訓練和使用。

<b>完全連接配接的神經網絡</b>:在靜态/表格資料上使用的最簡單的模型。

當模型從資料量不足的角度建立假設偏差時,這是一種負面影響而且是一個相當常見和非常重要的問題。

假設你幾次通路過一家面包店,而且還沒有你最喜歡的蛋糕在那裡!你可能會對面包店感到失望,即使其他一千個客戶可能會對該産品滿意。如果你是一個機器學習模型,那麼說你對一些例子過度适應是公平的,開發出一個有偏見的模型,這是你的頭腦中的一個表示,與事實相比,這是不準确的。

發生過拟合時,通常意味着該模型将資料中的随機噪聲視為重要信号并對其進行調整,這就是為什麼随着新資料的惡化(因為噪聲不同)。在神經網絡或梯度增強等非常複雜的模型中,情況通常如此。

每個産品經理都應該知道的機器學習術語

想象一下,建立一個模型來檢測提及奧林匹克運動期間特定體育學科的文章。由于你的訓練集偏向于有關奧林匹克的文章,是以該模型可能會學習諸如“奧林匹克”這樣的詞的特征,并且無法檢測到不包含該詞的正确文章。

<a href="https://promotion.aliyun.com/ntms/act/ambassador/sharetouser.html?userCode=j4nkrg1c&amp;utm_source=j4nkrg1c" target="_blank"><b>數十款阿裡雲産品限時折扣中,趕緊點選領劵開始雲上實踐吧!</b></a>

文章原标題《Machine Learning Terms every

manager should know》

作者:sigmoidal

譯者:虎說八道,審校:。

繼續閱讀