天天看點

企業如何搭建并使用人工智能?

作者:人人都是産品經理
AI人工智能技術的發展吸引了許多人湧入,相關技術的進步也為企業的發展帶來了許多新的機遇。那麼如果企業想搭建人工智能技術、培育模型,可以怎麼操作?本篇文章裡,作者對企業如何搭建并使用人工智能一事進行了解讀,一起來看。
企業如何搭建并使用人工智能?

前言

人工智能無疑是繼Web3、元宇宙之後最火的方向,吸引了大量資本的湧入。盡管許多人對于人工智能是否會取代人類感到擔憂,但是了解之後,我們會發現每一次科技創新和工業革命都會帶來新的職業機會。人工智能的出現雖然會取代部分重複性勞動,但同時也會釋放更多的思考空間,提高執行效率和思考能力。然而,它永遠無法完全取代人類!

一、為什麼企業需要人工智能

在企業中引入人工智能技術,可以有效提升員工内部的運作效率。通過自動化流程性質的内容,人工智能能夠更加高效地完成任務。此外,人工智能還可以通過不斷的自我疊代,産生更加客觀的結論,幫助企業避免走彎路,減少在關鍵決策上的資源和精力浪費。

除了解決人工效率問題,同時也能夠提升制造業的生産流程,包括節約生産過程中的資源,進而達到了降本增效。例如:亞馬遜正在使用 AI 來改善個性化推薦并優化庫存管理。在亞馬遜向股東送出的年度股東信中,CEO Jeff Bezos 讨論了通過其雲計算部門采用 AI 快速傳遞産品,增強現有産品和建立新工具的重要性。

1. AI提升工作效率

舉一個現實中的例子:

在網際網路公司中,每周都會舉行周例會,會議的進行中将本周的資料進行統計和分析,以觀察是否存在異常和資料波動。如果将這項工作交給AI執行,隻需一句指令,就能得出異常原因和異常資料,進而大大減少每次拉取資料的痛苦。這樣釋放出的時間和精力可以全身心地投入到解決問題上,而不是懷疑資料的真實性,或者針對資料做無休止的争論。

在上述的例子中,我們可以觀察到AI能力的一部分,即替代重複性的勞動力。然而,要實作資料分析以及針對特定行業的分析,需要資料分析師與AI進行有效的溝通和引導,以得出科學且客觀的結論。是以,企業引入的AI不僅需要具備能力,還需要是一個行業專屬模型。

2. AI提升業務能力

人工智能不僅能夠解決重複性的勞動,還能根據以往的業務資料進行分析,提前預測企業未來可能面臨的問題。這個過程所輸出的内容可以幫助企業内部員工提升能力,進而提高企業整體業務能力。這樣的結果可以幫助企業在行業内快速成長。

人工智能在這個過程就像每個員工的專屬助理一樣,通過業務資料的分析,給出客觀的預判,根據行業的發展狀況,結合公司内部的資料,給出未來1到5年的規劃,AI都可以完美的駕馭。但是依然是需要企業内部要有個專屬模型。

3. 企業需要專屬模型

我多次提到了“行業專屬模型”,而這個模型就是目前所有業内人士最關心的内容,有學者稱之為“大規模預訓練模型”(large pretrained language model)。未來,大模型就是AI基礎通用能力,就像ChatGPT一樣,你問它的内容基本都不屬于專屬行業的内容,但是一旦問了,可能得出的結論并不能直解決問題,是以大模型是基礎,那就要在這個基礎上做小模型的訓練,而小模型針對就是具體的場景,或者說具體的行業能力。

“小模型”:針對特定應用場景需求進行訓練,能完成特定任務,但是換到另外一個應用場景中可能并不适用,需要重新訓練(我們現在用的大多數模型都是這樣)。這些模型訓練基本是“手工作坊式”,并且模型訓練需要大規模的标注資料,如果某些應用場景的資料量少,訓練出的模型精度就會不理想。

“大模型”:在大規模無标注資料上進行訓練,學習出一種特征和規則。基于大模型進行應用開發時,将大模型進行微調(在下遊小規模有标注資料進行二次訓練)或者不進行微調,就可以完成多個應用場景的任務,實作通用的智能能力。

二、如何培育模型

首先,值得注意的是,培育大型模型并非所有企業都能夠輕松承擔的任務,因為這需要高門檻和強大的技術儲備。是以,我們需要利用已經培育好的通用模型為基礎,進行特殊場景的訓練。

這個過程一般需要分為幾個步驟。

首先,我們需要對資料進行清洗和預處理,以提供更高品質的資料内容。其次,我們需要根據訓練場景制定訓練模式。在訓練過程中,Transformer(自主意力神經網絡模型)、LLM(自然語言處理模型)以及prompt(提示詞)等相關内容都是不可或缺的。最後,我們需要進行場景化的應用和微調,這個過程就是不斷試驗模型輸出的内容,然後不斷地優化模型,以達到最優的效果,下面就展開說說部署的核心步驟。

三、資料處理

1. 資料提取

目前,企業均擁有自己的資料庫,這些資料以資料庫的節奏存儲,半結構/非結構化資料并非人工智能有效識别,是以需要重新提取這些資料。提取過程需要消除無效資料,重新定義基礎中繼資料,并為有效資料重新定義标簽。最後,關鍵的一步是對這些資料進行資料标注(Annotation),标注後的資料可以更好地被AI了解。核心的四個步驟包括:

2. 資料劃分

将已提取并标注好的資料内容進行組合,相當于将關聯性較強的資料放置于一個集合中,通常稱之為訓練集。當然,也可以通過應用場景反推資料如何合理地劃分。資料劃分是非常關鍵的一步,該過程包括訓練集、驗證集、測試集、分層抽樣和交叉驗證。

資料劃分的目的是確定模型在訓練、調優和評估過程中具有合理的資料集,并能夠對未見過的資料進行泛化。合理的資料劃分可以避免模型過拟合訓練集和驗證集,同時提供獨立的測試集來評估模型的真實性能。在選擇資料劃分比例時,需要根據具體任務、資料規模和可用資料量等因素進行調整,并進行交叉驗證等方法來穩定評估結果。

3. 特征工程

特征是指從資料集中提取出具有較強特點的内容,具備一定預測能力的特征。以文本資料集為例,這需要運用NLP技術,對資料集進行分詞、去除停用詞、處理近義詞、向量化等操作,然後進行壓縮和重組,生成新的資料處理集。通過領域知識和對資料的了解,可以建構新的特征,或者通過特征之間的組合和衍生來創造更有意義的特征。

特征工程的目标是使資料更适合機器學習算法的處理和模組化,并提供更有表達能力和預測能力的特征。根據具體的任務、資料集和模型選擇合适的特征工程步驟和技術,以提高模型的準确性和泛化能力。

四、模型訓練

1. 模型類型

首先要明确訓練的目标和目的,分析後期AI的應用場景的本質,确定好之後,才能夠對模型類型進行選擇。常見的模型類型包括線性模型(如線性回歸、邏輯回歸)、決策樹模型(如随機森林、梯度提升樹)、神經網絡模型(如卷積神經網絡、循環神經網絡)等。根據問題的複雜度、資料量和可用資源等因素,選擇适當的模型類型。

還有更深層次的架構内容:

  1. 卷積神經網絡(CNN):适用于圖像和空間資料處理,通過卷積和池化層來提取圖像的局部和全局特征。
  2. 循環神經網絡(RNN):适用于序列資料處理,通過循環結構捕捉序列中的時間依賴關系。
  3. 注意力機制(Attention Mechanism):用于關注模型關注輸入中的重要部分,可以應用于機器翻譯、文本摘要等任務。
  4. 轉移學習(Transfer Learning):利用預訓練模型來初始化網絡參數,提高模型的性能和收斂速度。
  5. 融合多個模型(Ensemble Learning):将多個模型的預測結果進行組合,以提高整體的準确性和泛化能力。

上述的内容,并不是都要在一個場景下用到,而是根據問題的性質、資料的特點、任務的要求和可用資源等因素,選擇适合的模型類型和設計合理的網絡架構。

2. 硬體資源

常用的硬體包括:CPU(中央處理器)、GPU(圖形處理器)、TPU(張量處理器)、FPGA(現場可程式設計門陣列)、硬體加速平台等。

選擇适當的硬體裝置取決于許多因素,如任務的複雜性、資料集的大小、可用的資源和預算等。對于小規模的任務和資料集,使用CPU可能是足夠的。對于大規模的深度學習任務,GPU和TPU可以提供更高的性能和效率。使用雲計算平台的硬體加速服務可以靈活地擴充計算資源,并提供高性能的訓練環境。

此外,還應考慮硬體和軟體的相容性、開發和調試工具的可用性,以及供應商的支援和更新等因素。綜合考慮這些因素,選擇合适的硬體裝置可以提供高效的模型訓練和優化,進而獲得更好的性能和結果。

3. 訓練模型

在此階段,我們将對前述所有内容進行程式化處理,并在伺服器上進行自動化訓練。訓練過程将通過可視化平台進行監測訓練結果。我們将使用各種參數進行微調,并反複進行訓練。訓練結束後,我們将逐一儲存模型版本,并進行測試驗證。

跑模型的核心流程是一個疊代的過程,需要不斷調優和改進,以提高模型的性能和适應性。在每個步驟中,資料的準備和清洗、模型的選擇和配置、訓練和評估、預測和應用都是重要的環節。通過不斷的實踐和經驗積累,可以逐漸優化和改進模型,以滿足具體問題和應用的需求。

五、模型應用

不同的應用場景所運用的模型都需要在伺服器存儲,同時要與業務系統進行打通,比如将訓練成型的模型嵌入到企業的業務系統中,或者部署到SAAS、PAAS等應用背景中。通過應用層的不斷使用,資料進行再次回收,就形成了完整的閉環,而人工智能也可以在這個過程不斷的自學,加快自我提升的速度。

六、總結

人工智能已經不再是一個概念性的産物,也不再是電影中所描繪的幻想。如今,它已經廣泛應用于各個行業領域。一旦模型訓練完成,它就可以應用于各種場景,并嵌入到各種系統中。

正如電影《超體》中所說:“我将無處不在!”,未來的人工智能完全可以跨越平台,在移動裝置、智能家居、企業系統、應用軟體以及各個平台中出現。如果企業想要快速發展,或者行業需要快速疊代,那麼人工智能将成為最核心的部分。學會如何控制人工智能也将衍生出更多的新興職業!

本文由 @金锴 原創釋出于人人都是産品經理。未經許可,禁止轉載

題圖來自Unsplash,基于CC0協定

該文觀點僅代表作者本人,人人都是産品經理平台僅提供資訊存儲空間服務。

繼續閱讀