目前阿里云maxcompute大数据产品已经免费向全部用户开放了多种公用数据集。在此之前,获取,分析,下载自定义的大型分析数据集需要数小时乃至数天才能完成。
我们将股票价格、房产、影视等多种类型的数据免费开放给用户,使得大家免去了复杂的数据获取、上传、清洗等过程,可以直接进入数据分析阶段,通过这种数据开放形式,我们希望能以更快的速度实现更多的创新。
目前我们开放的数据类别包括:股票价格数据,房产信息,影视及其票房数据。所有的数据均被存储在maxcompute 产品中的public_data 项目中。以下,我们将对这些数据做更为详细的介绍,并简要说明如何通过maxcompute 及数据工场服务并分析这些数据。
获取权限
首选,需要用户以项目空间的owner 或者管理员的身份,在自己的项目空间下,执行如下操作。执行完成后用户项目空间下的所有成员均可读取各公开数据集合:
执行该语句后即可执行查询:
特殊说明
公开数据集合对所有maxcompute 用户开放,这是通过maxcompute 特殊的授权机制实现的。在使用过程中,用户需要足以一下几点:
1. 所有数据均存储在一个名为public_data 的项目空间中,但所有用户并未被加入到该空间下(非项目空间成员)。因此,用户需要跨项目空间访问数据,在数据工场中编辑sql 时,必须在表明前指定项目名称,例如:
2. 由于是跨项目空间访问,所有用户在数据工场的[数据管理]中无法查找到公开数据集的表;
3. 只有在执行”add user”语句后,用户才有权限访问公开数据集。该语句可以再数据工场以及maxcompte 提供的客户端中执行;
下面我们将详细介绍目前开放的数据集合。
股票价格数据集
总体信息:每日更新a 股股票相关数据。
项目
public_data
表集合
ods_enterprise_share_basic 股票基本信息
ods_enterprise_share_quarter_cashflow 季度报表说明
ods_enterprise_share_quarter_growth 季度业务增长情况
ods_enterprise_share_quarter_operation 季度财务周转
ods_enterprise_share_quarter_profit 季度利润
ods_enterprise_share_quarter_report 季度报表
ods_enterprise_share_trade_h 股票价格
更新周期
提供固定分区的历史数据,不再做增量更新。
查询示例
select * from public_data. ods_enterprise_share_basic where ds ='20170114';
字段英文名
字段类型
描述
是否为分区列
<b>code</b>
string
代码
<b>name</b>
名称
<b>industry</b>
所属行业
<b>area</b>
地区
<b>pe</b><b> </b>
市盈率
<b>outstanding</b>
流通股本
<b>totals</b>
总股本(万)
<b>totalassets</b><b> </b>
总资产(万)
<b>liquidassets</b>
流动资产
<b>fixedassets</b>
固定资产
<b>reserved</b>
公积金
<b>reservedpershare</b><b> </b>
每股公积金
<b>eps</b>
每股收益
<b>bvps</b><b> </b>
每股净资
<b>pb</b><b> </b>
市净率
<b>timetomarket</b>
上市日期
<b>undp</b>
未分利润
<b>perundp</b><b> </b>
每股未分配
<b>rev</b>
收入同比(%)
<b>profit</b>
利润同比(%)
<b>gpr</b>
毛利率(%)
<b>npr</b><b> </b>
净利润率(%)
<b>holders_</b><b> </b><b>num</b>
股东人数
<b>ds</b><b> </b>
数据导入日期,时间间
隔为天。
分区列
数据样例:
rank
排序
code
name
cf_sales
经营现金净流量对销售收入比
率(%)
rateofreturn
资产的经营现金流量回报率(%)
cf_nm
经营现金净流量与净利润的比
cf_liabilities
经营现金净流量对负债比率(%)
cashflowratio
现金流量比率(%)
ds
年份
quarter
季度。数据季度更新。
mbrg
主营业务收入增长率(%)
nprg
净利润增长率(%)
nav
净资产增长率(%)
targ
总资产增长率(%)
epsg
每股收益增长率(%)
seg
股东权益增长率(%)
arturnover
应收账款周转率(次)
arturndays
应收账款周转天数(天)
inventory_turnover
存货周转率(次)
inventory_days
存货周转天数(天)
currentasset_turnover
流动资产周转率(次)
currentasset_days
流动资产周转天数(天)
导入日期。
roe
净资产收益率(%)
net_profit_ratio
净利率(%)
gross_profit_rate
net_profits
净利润(万元)
eps
business_income
营业收入(百万元)
bips
每股主营业务收入(元)
季度,数据季度更新。
eps_yoy
每股收益同比(%)
bvps
每股净资产
epcf
每股现金流量(元)
profits_yoy
净利润同比(%)
distrib
分配方案
report_date
发布日期
trde_date
日期
open
开盘价
high
最高价
close
收盘价
low
最低价
volume
成交量
price_change
价格变动
p_change
涨跌幅
ma5
5 日均价
ma10
10 日均价
ma20
20 日均价
v_ma5
5 日均量
v_ma10
10 日均量
v_ma20
20 日均量
turnover
换手率
股票代码
二手房产数据集
总体信息:二手房相关信息(注意:目前暂停更新)。
dwd_prouduct_house_basic_info_out
每日早10 点前更新。至2016 年12 月13 日开始更新,全量更新。
select * from public_data.dwd_prouduct_house_basic_info_out where ds= '20170113';
dwd_prouduct_house_basic_info_out信息说明
字段口型
是否是分区列
house_id
房产 id
house_city
房产所在城市
house_total_price
房产总价
house_unit_price
房产均价
house_type
房产类型
house_floor
房产楼层
house_direction
房产方向
house_deckoration
房产装修
house_area
房产面积
house_community_name
房产所在小区
house_region
房产所在地区
proj_name
楼盘名称
proj_addr
项目地址
period
产权年限
property
物业公司
greening_rate
绿化率
property_costs
物业费用
数据导入日期
总体信息:每日更新国内影视剧信息及票房数据信息 。
dwd_product_movie_basic_info 电影基本信息
ods_product_movie_box 票房基本信息
select * from public_data.dwd_product_movie_basic_info where ds ='20170112' limit 10;
<b>m</b><b>ov</b><b>i</b><b>e</b><b>_</b><b> </b><b>na</b><b>m</b><b>e</b><b> </b>
电影名称
<b>d</b><b>i</b><b>rc</b><b>t</b><b>o</b><b>r</b><b> </b>
导演
<b>scr</b><b>i</b><b>p</b><b>t</b><b>w</b><b>r</b><b>it</b><b>e</b><b>r</b>
编剧
<b>are</b><b>a</b>
制片地区/国家
<b>ac</b><b>t</b><b>or</b><b>s</b>
主演
<b>t</b><b>yp</b><b>e</b>
类型
<b>m</b><b>ov</b><b>i</b><b>e</b><b>_</b><b> </b><b>l</b><b>eng</b><b>t</b><b>h</b>
电影长度
<b>m</b><b>ov</b><b>i</b><b>e</b><b>_</b><b> </b><b>da</b><b>t</b><b>e</b>
上映日期
<b>m</b><b>ov</b><b>i</b><b>e</b><b>_</b><b> </b><b>l</b><b>anguag</b><b>e</b>
语言
<b>i</b><b>m</b><b>db</b><b>_</b><b> </b><b>ur</b><b>l</b>
imdb号
<b>d</b><b>s</b><b> </b>
<b>ran</b><b>k</b>
排名
<b>avgpr</b><b>i</b><b>c</b><b>e</b>
平均票价
<b>avppeop</b><b>l</b><b>e</b>
场均人次
<b>boxo</b><b>ffi</b><b>c</b><b>e</b>
单日票房(万)
<b>boxo</b><b>ffi</b><b>ce</b><b>_</b><b> </b><b>u</b><b>p</b><b> </b>
环比变化 (%)
<b>i</b><b>ran</b><b>k</b>
<b>m</b><b>ov</b><b>i</b><b>eda</b><b>y</b>
上映天数
<b>m</b><b>ov</b><b>i</b><b>ena</b><b>m</b><b>e</b><b> </b>
影片名
<b>su</b><b>m</b><b>boxo</b><b>ffi</b><b>c</b><b>e</b><b> </b>
累计票房(万)
<b>w</b><b>o</b><b>m</b><b>i</b><b>nde</b><b>x</b>
口碑指数
总体信息:tpc-ds是一套决策支持系统测试基准,主要针对零售行业。提供99个sql查询(sql99或2003),分析数据量大,测试数据与实际商业数据高度相似,同时具有各种业务模型(分析报告型,数据挖掘型等等) 。
public_data-非分区表
byte
mb
store_sales
132403186096
126270
catalog_sales
96618400536
92142
web_sales
48924735376
46658
store_returns
15258734432
14552
catalog_returns
9325156968
8893
web_returns
4776062944
4555
inventory
2354131064
2245
customer
545421520
520
customer_address
127890712
122
item
21917520
21
customer_demographics
2831808
2.70
catalog_page
1065000
1.02
date_dim
432592
0.41
time_dim
246576
0.24
store
68680
0.07
promotion
47976
0.05
web_page
32424
0.03
web_site
12000
0.01
call_center
10536
household_demographics
9448
warehouse
4640
<0.01
ship_mode
2040
reason
1528
income_band
1040
更新时间:2018 年7 月13 日
<a href="https://yq.aliyun.com/attachment/download/?filename=tpcds_1t...%5b%e9%9a%90%e6%9e%97%5d.1531572762.zip" target="_blank">脚本下载</a>
基于公开数据集的实战
购买&试用maxcompute,请加入扫码进钉钉群。公开数据集问题,请加入扫码进钉钉群。