智融集團CTO齊鵬詳析：AI如何處理金融領域的弱特征資料？丨CCF-GAIR 2017

雷鋒網(公衆号：雷鋒網)消息，7月7日～9日，由 ccf

主辦，雷鋒網、香港中文大學（深圳）承辦的第二屆 ccf-gair

全球人工智能與機器人峰會在深圳舉行。在第二天的金融科技專場中，智融集團cto齊鵬帶來了主題為《ai+金融的實踐與想象》的演講。齊鵬曾任職百度網頁搜尋部技術經理、高德事業部副總，如今是智融集團cto。

智融集團CTO齊鵬詳析：AI如何處理金融領域的弱特征資料？丨CCF-GAIR 2017

以下是雷鋒網整理的其演講全文：

人工智能是什麼？每個人都有自己的了解。今天的金融專場有金融專家，也有人工智能專家，是以我們從最簡單的例子講起，比如如何識别一隻貓？傳統上，要識别一隻貓，需要人定義規則，繼而機器去實作。在這個過程中，我們可能需要貓的輪廓、紋理、顔色等特征，從這些特征中找到規則，以實作自動化圖像識别。但貓的耳朵可能會藏起來，可能會背對着你，在這種情況下，就識别不了了。

人工智能出現後，我們有了新的技術手段。人工智能處理問題的過程，相當于我們對一個問題進行數學描述，繼而機器幫我們找到對應顯著特征，找到能夠證明一張圖檔上是否有一隻貓的顯著依據。

人工智能改變了人和計算機的互動方式，首先，我們要明确解決的問題是什麼、問題的複雜度，找到複雜問題的描述，針對這個數學描述，基于大資料，明确描述的函數。其中，有一些理論方法通過反複疊代和具體調參，可以明确用什麼樣的函數來描述這些問題。所謂函數，在人工智能中對應的不同模型，可能是深度學習模型，其實就是一個神經網絡。神經網絡中的不同連接配接方式決定了對複雜問題的解決程度。比如我用了線性模型，其次決定能解決什麼複雜程度的問題，之後決定用什麼樣的數學函數描述這個的問題。

人工智能到底是什麼呢？

首先要知道這個問題是什麼？而這個問題在客觀世界是通過資料表達的。資料分為2部分，一是特征，一是樣本。這兩部分資料決定了我們對現實世界認識的上限，但這個上限永遠沒有辦法突破。所謂人工智能，就是找到一個函數來描述這個問題，描述的過程即是拟合，基于樣本資料進行預測，那麼，如何保證預測有效呢？明确問題是同類型問題，而随着樣本擴大，局部世界的抽樣會越來越逼近現實世界，資料預測也會越來越有效。

其次，考慮場景是什麼？在中國，金融是少數人的金融，有一些現代的方法可以預測金融風險，要首先是确認資料夠全、夠多、資料覆寫準确度高。但中國大多數企業并沒有這樣的資料，随着移動網際網路出現，越來越多的人才把自己的數字信号、數字痕迹呈現在網上。是以，我們可以做的事情就是基于人的一些描述資訊，評價其對個人的金融風險有何佐證。這意味着，我們與傳統金融機構處理的資料量不一樣，資料産生的價值也不一樣。傳統金融的資料是基于邏輯篩選的資料，那些擁有弱特征資料的人群是傳統金融所不能服務的，而我們能從弱特征的資料中找到依據。

總而言之，我們做的事情就是：從某個人在移動網際網路上的資料信号中，找出能佐證這個人金融風險的不同依據，進而對這個人做相應的風險定價，決定這個人群是不是值得被服務的。這一過程需要做很多事情，包括選擇哪些學習對象作為資料依據、基于什麼目标判斷結果是否符合預期。一個說的是樣本，一個說的是特征。對于樣本來說，這些資料決定了當下對這個問題的了解程度。而通過機器學習方法能無限逼近問題了解的上限。

機器學習又涵蓋不同的技術選型，包括深度學習、線性學習方法、非線性學習方法；監督性學習、非監督性學習和半監督學習，這些算法能幫我們對一個人進行不同次元的風險定價和規劃。但真正能夠通過規則去定義的，仍是冰山一角，而廣泛的資料能夠帶給我們更多有價值的資訊。

人工智能發展很快，影響了我們生活的方方面面，搜尋、新聞推薦、購物等各種生活場景下都有用到。這些技術深深影響了我們的生活，就像開車一樣，我們不需要造車，但如何開車需要了解，那麼在金融領域，人工智能能幫助我們解決什麼問題呢？

人工智能的核心是：第一如何識别并找到學習依據；第二如何支撐所有的依據，這需要具備強大的計算能力；第三，資料告訴我問題的上限在哪裡，我如何逼近上限，并且可以預測未來的情況。

是以，我們主要做了三方面的工作。

第一，把原始資料加工成機器可以了解的資料過程。好比我有一個發動機，但發動機的類型不一樣，其啟動場景不一樣，同時，不同場景下對發動機的續航能力要求不一樣，能源消耗要求不一樣，啟動速度要求不一樣，意味着在不同的場景下需要找到能夠解決不同問題的有效辦法。

第二，從另一個角度看，特征工程是不斷挖掘資料價值的過程。在這個過程中，要考慮不同的方法。如何對原始資料進行覆寫、清洗、彌補；如何找到異常值；如何在模型應用的時候保證應變量的調優以及如何做智能降位確定模型的量化能力。

經過24個月的疊代，我們的産品已經能夠挖掘出1200多個基礎次元特征，這可作為判斷依據，幫助我們盡可能刻畫一個人的生活數字信号。具備了特征工程和學習對象後，相當于我們有了學習書本，學習書本背後帶給我們的就是相應的知識。

最後我們要解決的問題是：基于樣本的模型有多可靠。這一定程度上取決于輸入豐富程度。如果學習輸入豐富，那我們需要做的事情就是如何變成一位好學生，充分感覺到背後資料的資訊和價值。

d-ai機器學習模型

首先，我們需要判斷資料的覆寫、資料的準确性、資料的次元和資料背後和問題之間的相關性。如果是線性相關的，就要符合線性相關的要求，我們需要對特征做相應的加工和處理。如果發現資料相關性并不是線性的，就需要考慮如何用非線性的資料函數描述問題。所有的資料函數，我們都可以稱之為一個模型。說起模型，不同的問題需要有不同的解決方法和對策，是以，對于不同的資料源、不同的資料品質、不同的資料類型，在不一樣的情況下，我們需要選擇什麼模型刻畫問題。

標明模型後，逼近上限的過程中一定有調參，即模型疊代。

下一步，需要通過大量資料幫助計算機更聰明。人可以通過少量資料進行推理，計算機不可能做少量資料推理，但大量資料推理是完全可以勝任的。機器學習方法背後的支撐是大資料處理能力。所謂大資料處理，包括以什麼樣的方式從外部、從内部接收，之後做資料的持久化。

最後，如何做計算支援、服務支援。

我們建構了anubis大資料架構，每一決策都可以在8秒鐘完成，每一次基準庫重建也可以非常快速的完成。

當下，人工智能公司之間、人工智能和傳統公司之間競争的是什麼呢？我認為，歸根結底比的是誰計劃得更快。誰計劃得更快，誰就會變得更聰明。

我需要把業務做得更優秀，産生更多優質資料，優質資料反哺到業務來，進而讓業務做得更好，這就形成了正向的馬太效應。隻有這樣，才能保證公司發展有足夠的動力、保持足夠快的速度，在行業裡面立于一個不敗之地。

正好比較巧，我們的人工智能風控引擎叫做“i.c.e.”，分别是三個字母，i表示identify，c表示calculte，e表示evaluate。即如何盡量快收集到所有的資料樣本和表現；如何快速找到或者有效找到這個問題的數學函數表達；對未來有比較好的預測能力。

當ai應用到金融領域時，相比于傳統規則，優勢是什麼？

第一，避免了一些道德因素影響，避免了主觀執行能力不穩定的因素，避免了對員工嚴格的技術要求，這一塊明顯機器做得更好。

我們是一個大資料公司，通過人工智能，我們能對傳統機構所不能服務的人群進行風險定價，能收集到更多有效資訊，進而擁有更多資料，加之我們的技術能力，讓我們在迅速形成正向的馬太效應，使得業務能夠快速向前發展。

最後，人工智能幫助我們解決什麼問題？它提供給我們一種能力：對于大量人不能了解的資料，機器幫我們做定量；當人找不到一個有效函數描述問題時，機器可以找到這樣的函數。是以大資料湧現的今天，人工智能可謂應運而生。

人工智能在不同領域、不同的場景下，産生的作用是不一樣的。人工智能是否可以解決金融領域裡面所有的問題？随着人工智能的加入，金融領域會産生很大的改變，至于說能不能解決所有的問題，需要金融領域專家和人工智能的科學家一起去探索。

本文作者：張利

智融集團CTO齊鵬詳析：AI如何處理金融領域的弱特征資料？丨CCF-GAIR 2017

繼續閱讀

疾病研究：重症肌無力

Nacos 2.0 更新前後性能對比壓測

人工智能如何有效地運用于自然語言處理

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

9.spark Core 進階2--Cashe

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

淺談企業活動中進行資料分析的重要性

無人機--飛控科普

Ambari介紹和架構原理

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark