目前阿裡雲maxcompute大資料産品已經免費向全部使用者開放了多種公用資料集。在此之前,擷取,分析,下載下傳自定義的大型分析資料集需要數小時乃至數天才能完成。
我們将股票價格、房産、影視等多種類型的資料免費開放給使用者,使得大家免去了複雜的資料擷取、上傳、清洗等過程,可以直接進入資料分析階段,通過這種資料開放形式,我們希望能以更快的速度實作更多的創新。
目前我們開放的資料類别包括:股票價格資料,房産資訊,影視及其票房資料。所有的資料均被存儲在maxcompute 産品中的public_data 項目中。以下,我們将對這些資料做更為詳細的介紹,并簡要說明如何通過maxcompute 及資料工場服務并分析這些資料。
擷取權限
首選,需要使用者以項目空間的owner 或者管理者的身份,在自己的項目空間下,執行如下操作。執行完成後使用者項目空間下的所有成員均可讀取各公開資料集合:
執行該語句後即可執行查詢:

特殊說明
公開資料集合對所有maxcompute 使用者開放,這是通過maxcompute 特殊的授權機制實作的。在使用過程中,使用者需要足以一下幾點:
1. 所有資料均存儲在一個名為public_data 的項目空間中,但所有使用者并未被加入到該空間下(非項目空間成員)。是以,使用者需要跨項目空間通路資料,在資料工場中編輯sql 時,必須在表明前指定項目名稱,例如:
2. 由于是跨項目空間通路,所有使用者在資料工場的[資料管理]中無法查找到公開資料集的表;
3. 隻有在執行”add user”語句後,使用者才有權限通路公開資料集。該語句可以再資料工場以及maxcompte 提供的用戶端中執行;
下面我們将詳細介紹目前開放的資料集合。
股票價格資料集
總體資訊:每日更新a 股股票相關資料。
項目
public_data
表集合
ods_enterprise_share_basic 股票基本資訊
ods_enterprise_share_quarter_cashflow 季度報表說明
ods_enterprise_share_quarter_growth 季度業務增長情況
ods_enterprise_share_quarter_operation 季度财務周轉
ods_enterprise_share_quarter_profit 季度利潤
ods_enterprise_share_quarter_report 季度報表
ods_enterprise_share_trade_h 股票價格
更新周期
提供固定分區的曆史資料,不再做增量更新。
查詢示例
select * from public_data. ods_enterprise_share_basic where ds ='20170114';
字段英文名
字段類型
描述
是否為分區列
<b>code</b>
string
代碼
<b>name</b>
名稱
<b>industry</b>
所屬行業
<b>area</b>
地區
<b>pe</b><b> </b>
市盈率
<b>outstanding</b>
流通股本
<b>totals</b>
總股本(萬)
<b>totalassets</b><b> </b>
總資産(萬)
<b>liquidassets</b>
流動資産
<b>fixedassets</b>
固定資産
<b>reserved</b>
公積金
<b>reservedpershare</b><b> </b>
每股公積金
<b>eps</b>
每股收益
<b>bvps</b><b> </b>
每股淨資
<b>pb</b><b> </b>
市淨率
<b>timetomarket</b>
上市日期
<b>undp</b>
未分利潤
<b>perundp</b><b> </b>
每股未配置設定
<b>rev</b>
收入同比(%)
<b>profit</b>
利潤同比(%)
<b>gpr</b>
毛利率(%)
<b>npr</b><b> </b>
淨利潤率(%)
<b>holders_</b><b> </b><b>num</b>
股東人數
<b>ds</b><b> </b>
資料導入日期,時間間
隔為天。
分區列
資料樣例:
rank
排序
code
name
cf_sales
經營現金淨流量對銷售收入比
率(%)
rateofreturn
資産的經營現金流量回報率(%)
cf_nm
經營現金淨流量與淨利潤的比
cf_liabilities
經營現金淨流量對負債比率(%)
cashflowratio
現金流量比率(%)
ds
年份
quarter
季度。資料季度更新。
mbrg
主營業務收入增長率(%)
nprg
淨利潤增長率(%)
nav
淨資産增長率(%)
targ
總資産增長率(%)
epsg
每股收益增長率(%)
seg
股東權益增長率(%)
arturnover
應收賬款周轉率(次)
arturndays
應收賬款周轉天數(天)
inventory_turnover
存貨周轉率(次)
inventory_days
存貨周轉天數(天)
currentasset_turnover
流動資産周轉率(次)
currentasset_days
流動資産周轉天數(天)
導入日期。
roe
淨資産收益率(%)
net_profit_ratio
淨利率(%)
gross_profit_rate
net_profits
淨利潤(萬元)
eps
business_income
營業收入(百萬元)
bips
每股主營業務收入(元)
季度,資料季度更新。
eps_yoy
每股收益同比(%)
bvps
每股淨資産
epcf
每股現金流量(元)
profits_yoy
淨利潤同比(%)
distrib
配置設定方案
report_date
釋出日期
trde_date
日期
open
開盤價
high
最高價
close
收盤價
low
最低價
volume
成交量
price_change
價格變動
p_change
漲跌幅
ma5
5 日均價
ma10
10 日均價
ma20
20 日均價
v_ma5
5 日均量
v_ma10
10 日均量
v_ma20
20 日均量
turnover
換手率
股票代碼
二手房産資料集
總體資訊:二手房相關資訊(注意:目前暫停更新)。
dwd_prouduct_house_basic_info_out
每日早10 點前更新。至2016 年12 月13 日開始更新,全量更新。
select * from public_data.dwd_prouduct_house_basic_info_out where ds= '20170113';
dwd_prouduct_house_basic_info_out資訊說明
字段口型
是否是分區列
house_id
房産 id
house_city
房産所在城市
house_total_price
房産總價
house_unit_price
房産均價
house_type
房産類型
house_floor
房産樓層
house_direction
房産方向
house_deckoration
房産裝修
house_area
房産面積
house_community_name
房産所在小區
house_region
房産所在地區
proj_name
樓盤名稱
proj_addr
項目位址
period
産權年限
property
物業公司
greening_rate
綠化率
property_costs
物業費用
資料導入日期
總體資訊:每日更新國内影視劇資訊及票房資料資訊 。
dwd_product_movie_basic_info 電影基本資訊
ods_product_movie_box 票房基本資訊
select * from public_data.dwd_product_movie_basic_info where ds ='20170112' limit 10;
<b>m</b><b>ov</b><b>i</b><b>e</b><b>_</b><b> </b><b>na</b><b>m</b><b>e</b><b> </b>
電影名稱
<b>d</b><b>i</b><b>rc</b><b>t</b><b>o</b><b>r</b><b> </b>
導演
<b>scr</b><b>i</b><b>p</b><b>t</b><b>w</b><b>r</b><b>it</b><b>e</b><b>r</b>
編劇
<b>are</b><b>a</b>
制片地區/國家
<b>ac</b><b>t</b><b>or</b><b>s</b>
主演
<b>t</b><b>yp</b><b>e</b>
類型
<b>m</b><b>ov</b><b>i</b><b>e</b><b>_</b><b> </b><b>l</b><b>eng</b><b>t</b><b>h</b>
電影長度
<b>m</b><b>ov</b><b>i</b><b>e</b><b>_</b><b> </b><b>da</b><b>t</b><b>e</b>
上映日期
<b>m</b><b>ov</b><b>i</b><b>e</b><b>_</b><b> </b><b>l</b><b>anguag</b><b>e</b>
語言
<b>i</b><b>m</b><b>db</b><b>_</b><b> </b><b>ur</b><b>l</b>
imdb号
<b>d</b><b>s</b><b> </b>
<b>ran</b><b>k</b>
排名
<b>avgpr</b><b>i</b><b>c</b><b>e</b>
平均票價
<b>avppeop</b><b>l</b><b>e</b>
場均人次
<b>boxo</b><b>ffi</b><b>c</b><b>e</b>
單日票房(萬)
<b>boxo</b><b>ffi</b><b>ce</b><b>_</b><b> </b><b>u</b><b>p</b><b> </b>
環比變化 (%)
<b>i</b><b>ran</b><b>k</b>
<b>m</b><b>ov</b><b>i</b><b>eda</b><b>y</b>
上映天數
<b>m</b><b>ov</b><b>i</b><b>ena</b><b>m</b><b>e</b><b> </b>
影片名
<b>su</b><b>m</b><b>boxo</b><b>ffi</b><b>c</b><b>e</b><b> </b>
累計票房(萬)
<b>w</b><b>o</b><b>m</b><b>i</b><b>nde</b><b>x</b>
口碑指數
總體資訊:tpc-ds是一套決策支援系統測試基準,主要針對零售行業。提供99個sql查詢(sql99或2003),分析資料量大,測試資料與實際商業資料高度相似,同時具有各種業務模型(分析報告型,資料挖掘型等等) 。
public_data-非分區表
byte
mb
store_sales
132403186096
126270
catalog_sales
96618400536
92142
web_sales
48924735376
46658
store_returns
15258734432
14552
catalog_returns
9325156968
8893
web_returns
4776062944
4555
inventory
2354131064
2245
customer
545421520
520
customer_address
127890712
122
item
21917520
21
customer_demographics
2831808
2.70
catalog_page
1065000
1.02
date_dim
432592
0.41
time_dim
246576
0.24
store
68680
0.07
promotion
47976
0.05
web_page
32424
0.03
web_site
12000
0.01
call_center
10536
household_demographics
9448
warehouse
4640
<0.01
ship_mode
2040
reason
1528
income_band
1040
更新時間:2018 年7 月13 日
<a href="https://yq.aliyun.com/attachment/download/?filename=tpcds_1t...%5b%e9%9a%90%e6%9e%97%5d.1531572762.zip" target="_blank">腳本下載下傳</a>
基于公開資料集的實戰
購買&試用maxcompute,請加入掃碼進釘釘群。公開資料集問題,請加入掃碼進釘釘群。