天天看點

借助數加,原來需要2-3天的單次元資料處理時間,目前僅需3-6小時,研發周期更短,産品需求符合度更高。關于江蘇佰騰挑戰為什麼選擇阿裡雲數加解決方案及架構收益架構圖

“在原來自建的環境裡進行一個次元的資料處理大約需要 2-3天時間,而使用數加平台處理相同資料隻需要 3-6 個小時。這些效率的提升可以縮短資料分析應用産品的研發周期,并能更好的提高這些産品的需求符合度。”-cto 許鵬

江蘇佰騰科技有限公司(以下簡稱“佰騰”)成立于2012年,是一家專業從事知識産權服務的高科技服務企業,國内知名的知識産權服務機構,江蘇省最大的民營知識産權綜合服務機構。佰騰科技以專利資訊應用和專利咨詢服務為核心,面向國内外使用者提供專利資訊檢索、專利大資料應用開發、專利代理服務、專利預警分析、專利戰略研究、知識産權貫标輔導、知識産權管理、專利技術成果轉化交易等服務,為客戶提供知識産權、科技創新的整體解決方案。佰騰科技的專利資訊檢索平台(專利探索者)已經持續研發了 10 年,是目前國内最知名的免費面向公衆服務的大資料應用平台,為中國專利事業的發展做出了很多的突出貢獻。

2014年起,佰騰實施“網際網路+專利”計劃,開發了國内首家專利電商平台—專利巴巴,使公司轉型為知識産權領域内的網際網路公司,并采用b2b、o2o線上線下相結合的模式為客戶提供全方位的、全流程的知識産權一體化服務。用網際網路的思維和技術來改造傳統的知識産權行業,在這個過程中,大資料技術的應用是佰騰科技最重要的手段之一。佰騰在專利資訊應用上研究多年,一直緻力于解決一個問題:讓專利資訊應用變得大衆化。公司累計服務企業達120000多家,其中上市公司560多家。

佰騰科技緻力于為客戶提供最好的專利資訊和技術創新服務。近年來,一些企業,特别是出口型企業開始慢慢認識到,不僅要在技術上做突圍,同時也要構築自己的專利壁壘,是以就一定需要創新。對企業來講,創新投入的費用非常大,是以要找捷徑,了解目前所在行業領域的技術發展程度,迫切需要找到技術的熱點和空白點,于是這也就成為了佰騰專利資訊應用的新的課題,這就要求佰騰不能單純把專利資訊的内容簡單地拆解出來,而是需要通過大資料挖掘、大資料應用進行分析。在大資料處理流程中,不僅僅使用專利資料進行資料挖掘,還會更多地引用期刊文獻、法律訴訟資訊、企業資訊,并将其整合。

佰騰之前自建的資料平台已經不能滿足大資料挖掘和應用的需求,在以下方面存在巨大的挑戰:

1.投入成本過高。“整個平台,自建投入費用過百萬,每年的維護也需要差不多十幾萬,投入非常大。”cto許鵬講道。

2.海量資料處理的能力差,不滿足周期性的資料更新要求。“專利資訊的大資料與其它領域的大資料不同,雖然全球專利資訊的總量僅在 1.3 億多條,但是每條專利資訊要分析擷取的資料次元目前就多達200多項,實際處理的資料量在100億多條級别,同時,針對各種客戶的不同需求,還要基于這些資料實作數百種的分析模型和方法,從中挖掘出專利資訊的深層次價值。目前,專利大資料的業務已經非常複雜,資料業務場景從10年前的個位數增長到十位數,可用資料次元從30多項增加到200多項。”許鵬講道。佰騰不僅僅提供給使用者文字檢索功能,還有圖像檢索、特征檢索、關聯檢索,并将它們串起來,産生相應的報告;資料應用的深度也已經加大,資料次元的增加使資料處理量翻了數十倍,資料處理的能力已不再滿足周期性的資料更新。一開始能做到每個次元都更新,後來随着資料次元的增加,處理不過來,有一些資料次元則會把更新的周期拉長。而且,在海量資料處理時,自建系統很多情況下在資料處理到80%的時候才會發現有問題,由于處理時間過長,當發現問題時隻能重新開始,浪費的時間非常多,資料的處理周期會成倍拉長。

3. 資料處理和資料應用瓶頸頻發。瓶頸主要存在以下3個方面:

• 分布式抓取模型,維護成本大,資源使用率不高;

• 單點資料存儲結構,無法滿足大量的讀寫并發,降低了資料檢查和資料處理的速度;

• 索引資料和文本資料混合存儲,資料應用性能較差。

• 需要分析的資料次元比較多,是以處理環節非常多,資料處理流程異常複雜,流程編排完全靠手工,任務繁重,無法自動化編排。

4.專利大資料的深度挖掘越來越需要依賴新的資料挖掘技術,比如文本聚類、機器學習、圖像識别等,而佰騰不可能短時間内建立并擁有研發這些技術的專業團隊,迫切需要借助第三方的平台及工具支撐。

5.專利大資料的應用是一個實踐性非常強的領域,随着客戶應用需求的不斷提升,佰騰需要不斷更新分析和展示資料結果的模型和方法,不僅有提升資料處理效率的問題,也有提升資料分析應用能力的問題。是以還需要資料平台具有可擴充性,可以快速響應不斷變化的客戶需求,而之前的平台有幾十個元件均需要維護,而每有一個新的客戶需求都需要重新做元件。

佰騰之前采用自建的資料平台進行大資料的處理和分析,如上所述,自建大資料基礎設施需要采購和維護大量硬體裝置,部署和配置複雜的系統環境,需要耗費大量資源保證服務的持續、穩定運作,并且對于運維人員的要求會更高。而且,原有的資料架構平台已使用多年,技術比較落後,在性能和功能上存在很多瓶頸,已經不能很好的支撐新的大資料研發需求。

雲服務最大的特點就是隻用使用服務,不需要關心底層技術架構、安全性、可靠性、穩定性等方面的問題。而且,對于專利大資料處理業務來講,雲服務是整個業務系統依賴的重要基礎,能節省大量的基礎建設費用。而且,阿裡雲數加平台在國内大資料技術方面處于領先地位,也是最早進行大資料雲化的平台,是以佰騰決定使用阿裡雲數加作為大資料平台。同時,也會根據自身業務的需求,對雲服務進行進一步的開發,形成最有利于自身業務發展的大資料分析應用平台。

随着對專利資訊次元挖掘的深入,佰騰對于資訊挖掘的需求正在從“文字表述“向“邏輯概念”轉移,比如希望從專利資訊中挖掘出技術概念并發現它們之間的關系,這樣就能幫助客戶更好的分析技術發展的趨勢和熱點。目前,佰騰正在推進專利資訊深度挖掘技術的研發,借助數加平台的機器學習以及資料分析能力,為客戶提供更加精準、更加全面、更個性化的專利大資料應用服務。基于阿裡雲的大資料平台技術架構如頁面下方架構圖所示。

整個平台按照資料業務處理過程中的職能對平台架構進行分層設計:

<b>資料擷取層</b>:負責從資料源拉取資料,檢驗資料的完整性。如圖中源資料處理元件所示,現在有1億3千多萬條專利資料,每周的更新量很大,要保證每周的資料都要拉取正确。

<b>資料處理層</b>:負責對原始資料進行資料次元的挖掘。現在200個資料次元,都通過這一層處理,将處理結果放到整體系統的核心—資料次元資料庫,主要通過數加平台的maxcompute作為資料次元資料庫并通過data ide進行複雜的分布式大資料處理。此外,圖像資訊存儲在oss中,通過專利圖像處理标準化流程,用于後續的資料應用層的圖像索引引擎。

<b>資料應用層</b>:負責對資料次元進行各類索引以便應用。如圖所示包括全文引擎、圖像引擎等,還有關聯索引,用于檢索專利間的關系。最左邊的圖像引擎,和文本處理有些不同,但處理方式差不多。

<b>資料服務層</b>:負責對外提供統一的資料服務接口,保障服務品質。如圖所示大資料基礎服務平台所涵蓋的圖檔服務、檢索服務、分析服務和資源服務。

<b>資料管控層</b>:在架構圖中未展現,貫穿上下各層,負責對整個資料平台進行運作監控。

此外,架構圖中間還有rds,将用于展示的資料單獨拿出來,和索引分開,可以提高大資料應用的效率。

使用的阿裡雲數加産品有:

• 大規模計算服務(maxcompute)

• 大資料開發套件(data ide)

• 機器學習

1.成本大大降低。使用數加平台後,如上所述,無需基礎設施投入,按需付費,而且無需關注運維問題。據統計,目前佰騰整個數加平台的年消費不到原來自建系統年維護費用的1/5。

2. 數加平台的 maxcompute 解決了資料存儲量大的問題,保證了資料的安全性和完整性,資料存儲和處理效率有了大幅提升。“在原來自建的環境裡進行一個次元的資料處理大約需要 2-3天時間,而使用數加平台處理相同資料隻需要 3-6 個小時。這些效率的提升可以縮短資料分析應用産品的研發周期,并能更好的提高這些産品的需求符合度。”許鵬講道。

3. data ide的圖形化任務開發功能很好的解決了資料處理過程中流程标準化的問題,可以将任務托管後自動化執行,解放了開發人員雙手;分布式的架構結構解決了多任務的并發處理問題,提高了任務處理的速度,實作了資料價值的快速挖掘,避免了自建系統存在的諸多不穩定問題。

4. 上雲之後的大資料處理流程,比之前的流程簡單很多。所有流程都實作了自動化編排,一鍵式處理就可以完全編排,非常高效。新流程相比原來的具備以下優勢:更高效、更豐富的資料次元挖掘;減少人工介入,降低了成本;全流程、全自動化的資料處理;索引資料和文本資料分離處理,提高資料應用性能。

5.機器學習平台降低了算法的學習成本,也可利用既有的資料模型算法解決資料挖掘過程中的問題。

6. 目前佰騰已經将基礎資料處理和部分資料挖掘的任務放在阿裡雲數加平台上完成,然而更重要的是,阿裡雲數加一站式大資料平台還可以在文本資料挖掘、圖像資料識别、資料關聯分析等方面給予佰騰更多的能力支撐,以助力佰騰在專利大資料分析應用領域繼續拓展業務并快速發展。

借助數加,原來需要2-3天的單次元資料處理時間,目前僅需3-6小時,研發周期更短,産品需求符合度更高。關于江蘇佰騰挑戰為什麼選擇阿裡雲數加解決方案及架構收益架構圖

<a href="https://yq.aliyun.com/articles/72250" target="_blank">大資料打造你的變美頻道——數加平台上小紅唇的大資料實踐</a>

https://yq.aliyun.com/articles/72250

<a href="https://yq.aliyun.com/articles/70510">借助阿裡雲數加,小小的美甲行業被美甲幫玩出了天價</a>

https://yq.aliyun.com/articles/70510

<a href="https://yq.aliyun.com/articles/70509">與阿裡雲整個生态體系共同成長,更快更好的為房地産行業客戶提供高價值的服務</a>

https://yq.aliyun.com/articles/70509

<a href="https://yq.aliyun.com/articles/69333">蘇州協鑫與阿裡雲合作階段性完成,良品率已提升1%</a>

https://yq.aliyun.com/articles/69333

<a href="https://yq.aliyun.com/articles/68211">墨迹天氣-輕松處理每天2tb的日志資料,支撐營運團隊進行大資料分析挖掘,随時洞察使用者個性化需求</a>

https://yq.aliyun.com/articles/68211

<a href="https://yq.aliyun.com/articles/67275">阿裡雲數加讓企業更專注于業務,助力東潤環能高效利用大資料資源</a>

https://yq.aliyun.com/articles/67275

<a href="https://yq.aliyun.com/articles/70359">産品3周疊代一次,啟信寶駕馭8000萬企業征信的平台架構</a>

https://yq.aliyun.com/articles/70359

<a href="https://yq.aliyun.com/articles/70353">日交易筆百萬級,ping++的大資料平台架構</a>

https://yq.aliyun.com/articles/70353

<a href="https://yq.aliyun.com/articles/70412">專訪佰騰科技大資料團隊,談專利大資料領域的挑戰與實踐</a>

https://yq.aliyun.com/articles/70412

<a href="https://yq.aliyun.com/articles/70347">技術創業難?看彙合營銷如何玩轉大資料與機器學習</a>

https://yq.aliyun.com/articles/70347

借助數加,原來需要2-3天的單次元資料處理時間,目前僅需3-6小時,研發周期更短,産品需求符合度更高。關于江蘇佰騰挑戰為什麼選擇阿裡雲數加解決方案及架構收益架構圖

繼續閱讀