天天看點

阿裡雲MaxCompute(大資料)公開資料集---帶你玩轉人工智能影視及票房資料集TPC-DS資料集 1TB手把手,教你用MaxCompute+OpenSearch搭建分布式搜尋引擎

目前阿裡雲maxcompute大資料産品已經免費向全部使用者開放了多種公用資料集。在此之前,擷取,分析,下載下傳自定義的大型分析資料集需要數小時乃至數天才能完成。

我們将股票價格、房産、影視等多種類型的資料免費開放給使用者,使得大家免去了複雜的資料擷取、上傳、清洗等過程,可以直接進入資料分析階段,通過這種資料開放形式,我們希望能以更快的速度實作更多的創新。

目前我們開放的資料類别包括:股票價格資料,房産資訊,影視及其票房資料。所有的資料均被存儲在maxcompute 産品中的public_data 項目中。以下,我們将對這些資料做更為詳細的介紹,并簡要說明如何通過maxcompute 及資料工場服務并分析這些資料。

擷取權限

首選,需要使用者以項目空間的owner 或者管理者的身份,在自己的項目空間下,執行如下操作。執行完成後使用者項目空間下的所有成員均可讀取各公開資料集合:

執行該語句後即可執行查詢:

阿裡雲MaxCompute(大資料)公開資料集---帶你玩轉人工智能影視及票房資料集TPC-DS資料集 1TB手把手,教你用MaxCompute+OpenSearch搭建分布式搜尋引擎

特殊說明

公開資料集合對所有maxcompute 使用者開放,這是通過maxcompute 特殊的授權機制實作的。在使用過程中,使用者需要足以一下幾點:

1. 所有資料均存儲在一個名為public_data 的項目空間中,但所有使用者并未被加入到該空間下(非項目空間成員)。是以,使用者需要跨項目空間通路資料,在資料工場中編輯sql 時,必須在表明前指定項目名稱,例如:

2. 由于是跨項目空間通路,所有使用者在資料工場的[資料管理]中無法查找到公開資料集的表;

3. 隻有在執行”add user”語句後,使用者才有權限通路公開資料集。該語句可以再資料工場以及maxcompte 提供的用戶端中執行;

下面我們将詳細介紹目前開放的資料集合。

股票價格資料集

總體資訊:每日更新a 股股票相關資料。

項目

public_data

表集合

ods_enterprise_share_basic 股票基本資訊

ods_enterprise_share_quarter_cashflow 季度報表說明

ods_enterprise_share_quarter_growth 季度業務增長情況

ods_enterprise_share_quarter_operation 季度财務周轉

ods_enterprise_share_quarter_profit 季度利潤

ods_enterprise_share_quarter_report 季度報表

ods_enterprise_share_trade_h 股票價格

更新周期

提供固定分區的曆史資料,不再做增量更新。

查詢示例

select * from public_data. ods_enterprise_share_basic where ds ='20170114';

字段英文名

字段類型

描述

是否為分區列

<b>code</b>

string

代碼

<b>name</b>

名稱

<b>industry</b>

所屬行業

<b>area</b>

地區

<b>pe</b><b> </b>

市盈率

<b>outstanding</b>

流通股本

<b>totals</b>

總股本(萬)

<b>totalassets</b><b> </b>

總資産(萬)

<b>liquidassets</b>

流動資産

<b>fixedassets</b>

固定資産

<b>reserved</b>

公積金

<b>reservedpershare</b><b> </b>

每股公積金

<b>eps</b>

每股收益

<b>bvps</b><b> </b>

每股淨資

<b>pb</b><b> </b>

市淨率

<b>timetomarket</b>

上市日期

<b>undp</b>

未分利潤

<b>perundp</b><b> </b>

每股未配置設定

<b>rev</b>

收入同比(%)

<b>profit</b>

利潤同比(%)

<b>gpr</b>

毛利率(%)

<b>npr</b><b> </b>

淨利潤率(%)

<b>holders_</b><b> </b><b>num</b>

股東人數

<b>ds</b><b> </b>

資料導入日期,時間間

隔為天。

分區列

資料樣例:

阿裡雲MaxCompute(大資料)公開資料集---帶你玩轉人工智能影視及票房資料集TPC-DS資料集 1TB手把手,教你用MaxCompute+OpenSearch搭建分布式搜尋引擎

rank

排序

code

name

cf_sales

經營現金淨流量對銷售收入比

率(%)

rateofreturn

資産的經營現金流量回報率(%)

cf_nm

經營現金淨流量與淨利潤的比

cf_liabilities

經營現金淨流量對負債比率(%)

cashflowratio

現金流量比率(%)

ds

年份

quarter

季度。資料季度更新。

阿裡雲MaxCompute(大資料)公開資料集---帶你玩轉人工智能影視及票房資料集TPC-DS資料集 1TB手把手,教你用MaxCompute+OpenSearch搭建分布式搜尋引擎

mbrg

主營業務收入增長率(%)

nprg

淨利潤增長率(%)

nav

淨資産增長率(%)

targ

總資産增長率(%)

epsg

每股收益增長率(%)

seg

股東權益增長率(%)

阿裡雲MaxCompute(大資料)公開資料集---帶你玩轉人工智能影視及票房資料集TPC-DS資料集 1TB手把手,教你用MaxCompute+OpenSearch搭建分布式搜尋引擎

arturnover

應收賬款周轉率(次)

arturndays

應收賬款周轉天數(天)

inventory_turnover

存貨周轉率(次)

inventory_days

存貨周轉天數(天)

currentasset_turnover

流動資産周轉率(次)

currentasset_days

流動資産周轉天數(天)

導入日期。

阿裡雲MaxCompute(大資料)公開資料集---帶你玩轉人工智能影視及票房資料集TPC-DS資料集 1TB手把手,教你用MaxCompute+OpenSearch搭建分布式搜尋引擎

roe

淨資産收益率(%)

net_profit_ratio

淨利率(%)

gross_profit_rate

net_profits

淨利潤(萬元)

eps

business_income

營業收入(百萬元)

bips

每股主營業務收入(元)

季度,資料季度更新。

阿裡雲MaxCompute(大資料)公開資料集---帶你玩轉人工智能影視及票房資料集TPC-DS資料集 1TB手把手,教你用MaxCompute+OpenSearch搭建分布式搜尋引擎

eps_yoy

每股收益同比(%)

bvps

每股淨資産

epcf

每股現金流量(元)

profits_yoy

淨利潤同比(%)

distrib

配置設定方案

report_date

釋出日期

阿裡雲MaxCompute(大資料)公開資料集---帶你玩轉人工智能影視及票房資料集TPC-DS資料集 1TB手把手,教你用MaxCompute+OpenSearch搭建分布式搜尋引擎

trde_date

日期

open

開盤價

high

最高價

close

收盤價

low

最低價

volume

成交量

price_change

價格變動

p_change

漲跌幅

ma5

5 日均價

ma10

10 日均價

ma20

20 日均價

v_ma5

5 日均量

v_ma10

10 日均量

v_ma20

20 日均量

turnover

換手率

股票代碼

阿裡雲MaxCompute(大資料)公開資料集---帶你玩轉人工智能影視及票房資料集TPC-DS資料集 1TB手把手,教你用MaxCompute+OpenSearch搭建分布式搜尋引擎

二手房産資料集

總體資訊:二手房相關資訊(注意:目前暫停更新)。

dwd_prouduct_house_basic_info_out

每日早10 點前更新。至2016 年12 月13 日開始更新,全量更新。

select * from public_data.dwd_prouduct_house_basic_info_out where ds= '20170113';

dwd_prouduct_house_basic_info_out資訊說明

字段口型

是否是分區列

house_id

房産 id

house_city

房産所在城市

house_total_price

房産總價

house_unit_price

房産均價

house_type

房産類型

house_floor

房産樓層

house_direction

房産方向

house_deckoration

房産裝修

house_area

房産面積

house_community_name

房産所在小區

house_region

房産所在地區

proj_name

樓盤名稱

proj_addr

項目位址

period

産權年限

property

物業公司

greening_rate

綠化率

property_costs

物業費用

資料導入日期

阿裡雲MaxCompute(大資料)公開資料集---帶你玩轉人工智能影視及票房資料集TPC-DS資料集 1TB手把手,教你用MaxCompute+OpenSearch搭建分布式搜尋引擎

總體資訊:每日更新國内影視劇資訊及票房資料資訊 。

dwd_product_movie_basic_info 電影基本資訊

ods_product_movie_box 票房基本資訊

select * from public_data.dwd_product_movie_basic_info where ds ='20170112' limit 10;

<b>m</b><b>ov</b><b>i</b><b>e</b><b>_</b><b> </b><b>na</b><b>m</b><b>e</b><b> </b>

電影名稱

<b>d</b><b>i</b><b>rc</b><b>t</b><b>o</b><b>r</b><b> </b>

導演

<b>scr</b><b>i</b><b>p</b><b>t</b><b>w</b><b>r</b><b>it</b><b>e</b><b>r</b>

編劇

<b>are</b><b>a</b>

制片地區/國家

<b>ac</b><b>t</b><b>or</b><b>s</b>

主演

<b>t</b><b>yp</b><b>e</b>

類型

<b>m</b><b>ov</b><b>i</b><b>e</b><b>_</b><b> </b><b>l</b><b>eng</b><b>t</b><b>h</b>

電影長度

<b>m</b><b>ov</b><b>i</b><b>e</b><b>_</b><b> </b><b>da</b><b>t</b><b>e</b>

上映日期

<b>m</b><b>ov</b><b>i</b><b>e</b><b>_</b><b> </b><b>l</b><b>anguag</b><b>e</b>

語言

<b>i</b><b>m</b><b>db</b><b>_</b><b> </b><b>ur</b><b>l</b>

imdb号

<b>d</b><b>s</b><b> </b>

阿裡雲MaxCompute(大資料)公開資料集---帶你玩轉人工智能影視及票房資料集TPC-DS資料集 1TB手把手,教你用MaxCompute+OpenSearch搭建分布式搜尋引擎

<b>ran</b><b>k</b>

排名

<b>avgpr</b><b>i</b><b>c</b><b>e</b>

平均票價

<b>avppeop</b><b>l</b><b>e</b>

場均人次

<b>boxo</b><b>ffi</b><b>c</b><b>e</b>

單日票房(萬)

<b>boxo</b><b>ffi</b><b>ce</b><b>_</b><b> </b><b>u</b><b>p</b><b> </b>

環比變化 (%)

<b>i</b><b>ran</b><b>k</b>

<b>m</b><b>ov</b><b>i</b><b>eda</b><b>y</b>

上映天數

<b>m</b><b>ov</b><b>i</b><b>ena</b><b>m</b><b>e</b><b> </b>

影片名

<b>su</b><b>m</b><b>boxo</b><b>ffi</b><b>c</b><b>e</b><b> </b>

累計票房(萬)

<b>w</b><b>o</b><b>m</b><b>i</b><b>nde</b><b>x</b>

口碑指數

阿裡雲MaxCompute(大資料)公開資料集---帶你玩轉人工智能影視及票房資料集TPC-DS資料集 1TB手把手,教你用MaxCompute+OpenSearch搭建分布式搜尋引擎

總體資訊:tpc-ds是一套決策支援系統測試基準,主要針對零售行業。提供99個sql查詢(sql99或2003),分析資料量大,測試資料與實際商業資料高度相似,同時具有各種業務模型(分析報告型,資料挖掘型等等) 。

public_data-非分區表

byte

mb

 

store_sales

132403186096

126270

catalog_sales

96618400536

92142

web_sales

48924735376

46658

store_returns

15258734432

14552

catalog_returns

9325156968

8893

web_returns

4776062944

4555

inventory

2354131064

2245

customer

545421520

520

customer_address

127890712

122

item

21917520

21

customer_demographics

2831808

2.70

catalog_page

1065000

1.02

date_dim

432592

0.41

time_dim

246576

0.24

store

68680

0.07

promotion

47976

0.05

web_page

32424

0.03

web_site

12000

0.01

call_center

10536

household_demographics

9448

warehouse

4640

&lt;0.01

ship_mode

2040

reason

1528

income_band

1040

更新時間:2018 年7 月13 日

<a href="https://yq.aliyun.com/attachment/download/?filename=tpcds_1t...%5b%e9%9a%90%e6%9e%97%5d.1531572762.zip" target="_blank">腳本下載下傳</a>

基于公開資料集的實戰

購買&amp;試用maxcompute,請加入掃碼進釘釘群。公開資料集問題,請加入掃碼進釘釘群。

阿裡雲MaxCompute(大資料)公開資料集---帶你玩轉人工智能影視及票房資料集TPC-DS資料集 1TB手把手,教你用MaxCompute+OpenSearch搭建分布式搜尋引擎
阿裡雲MaxCompute(大資料)公開資料集---帶你玩轉人工智能影視及票房資料集TPC-DS資料集 1TB手把手,教你用MaxCompute+OpenSearch搭建分布式搜尋引擎