天天看点

阿里云MaxCompute(大数据)公开数据集---带你玩转人工智能影视及票房数据集TPC-DS数据集 1TB手把手,教你用MaxCompute+OpenSearch搭建分布式搜索引擎

目前阿里云maxcompute大数据产品已经免费向全部用户开放了多种公用数据集。在此之前,获取,分析,下载自定义的大型分析数据集需要数小时乃至数天才能完成。

我们将股票价格、房产、影视等多种类型的数据免费开放给用户,使得大家免去了复杂的数据获取、上传、清洗等过程,可以直接进入数据分析阶段,通过这种数据开放形式,我们希望能以更快的速度实现更多的创新。

目前我们开放的数据类别包括:股票价格数据,房产信息,影视及其票房数据。所有的数据均被存储在maxcompute 产品中的public_data 项目中。以下,我们将对这些数据做更为详细的介绍,并简要说明如何通过maxcompute 及数据工场服务并分析这些数据。

获取权限

首选,需要用户以项目空间的owner 或者管理员的身份,在自己的项目空间下,执行如下操作。执行完成后用户项目空间下的所有成员均可读取各公开数据集合:

执行该语句后即可执行查询:

阿里云MaxCompute(大数据)公开数据集---带你玩转人工智能影视及票房数据集TPC-DS数据集 1TB手把手,教你用MaxCompute+OpenSearch搭建分布式搜索引擎

特殊说明

公开数据集合对所有maxcompute 用户开放,这是通过maxcompute 特殊的授权机制实现的。在使用过程中,用户需要足以一下几点:

1. 所有数据均存储在一个名为public_data 的项目空间中,但所有用户并未被加入到该空间下(非项目空间成员)。因此,用户需要跨项目空间访问数据,在数据工场中编辑sql 时,必须在表明前指定项目名称,例如:

2. 由于是跨项目空间访问,所有用户在数据工场的[数据管理]中无法查找到公开数据集的表;

3. 只有在执行”add user”语句后,用户才有权限访问公开数据集。该语句可以再数据工场以及maxcompte 提供的客户端中执行;

下面我们将详细介绍目前开放的数据集合。

股票价格数据集

总体信息:每日更新a 股股票相关数据。

项目

public_data

表集合

ods_enterprise_share_basic 股票基本信息

ods_enterprise_share_quarter_cashflow 季度报表说明

ods_enterprise_share_quarter_growth 季度业务增长情况

ods_enterprise_share_quarter_operation 季度财务周转

ods_enterprise_share_quarter_profit 季度利润

ods_enterprise_share_quarter_report 季度报表

ods_enterprise_share_trade_h 股票价格

更新周期

提供固定分区的历史数据,不再做增量更新。

查询示例

select * from public_data. ods_enterprise_share_basic where ds ='20170114';

字段英文名

字段类型

描述

是否为分区列

<b>code</b>

string

代码

<b>name</b>

名称

<b>industry</b>

所属行业

<b>area</b>

地区

<b>pe</b><b> </b>

市盈率

<b>outstanding</b>

流通股本

<b>totals</b>

总股本(万)

<b>totalassets</b><b> </b>

总资产(万)

<b>liquidassets</b>

流动资产

<b>fixedassets</b>

固定资产

<b>reserved</b>

公积金

<b>reservedpershare</b><b> </b>

每股公积金

<b>eps</b>

每股收益

<b>bvps</b><b> </b>

每股净资

<b>pb</b><b> </b>

市净率

<b>timetomarket</b>

上市日期

<b>undp</b>

未分利润

<b>perundp</b><b> </b>

每股未分配

<b>rev</b>

收入同比(%)

<b>profit</b>

利润同比(%)

<b>gpr</b>

毛利率(%)

<b>npr</b><b> </b>

净利润率(%)

<b>holders_</b><b> </b><b>num</b>

股东人数

<b>ds</b><b> </b>

数据导入日期,时间间

隔为天。

分区列

数据样例:

阿里云MaxCompute(大数据)公开数据集---带你玩转人工智能影视及票房数据集TPC-DS数据集 1TB手把手,教你用MaxCompute+OpenSearch搭建分布式搜索引擎

rank

排序

code

name

cf_sales

经营现金净流量对销售收入比

率(%)

rateofreturn

资产的经营现金流量回报率(%)

cf_nm

经营现金净流量与净利润的比

cf_liabilities

经营现金净流量对负债比率(%)

cashflowratio

现金流量比率(%)

ds

年份

quarter

季度。数据季度更新。

阿里云MaxCompute(大数据)公开数据集---带你玩转人工智能影视及票房数据集TPC-DS数据集 1TB手把手,教你用MaxCompute+OpenSearch搭建分布式搜索引擎

mbrg

主营业务收入增长率(%)

nprg

净利润增长率(%)

nav

净资产增长率(%)

targ

总资产增长率(%)

epsg

每股收益增长率(%)

seg

股东权益增长率(%)

阿里云MaxCompute(大数据)公开数据集---带你玩转人工智能影视及票房数据集TPC-DS数据集 1TB手把手,教你用MaxCompute+OpenSearch搭建分布式搜索引擎

arturnover

应收账款周转率(次)

arturndays

应收账款周转天数(天)

inventory_turnover

存货周转率(次)

inventory_days

存货周转天数(天)

currentasset_turnover

流动资产周转率(次)

currentasset_days

流动资产周转天数(天)

导入日期。

阿里云MaxCompute(大数据)公开数据集---带你玩转人工智能影视及票房数据集TPC-DS数据集 1TB手把手,教你用MaxCompute+OpenSearch搭建分布式搜索引擎

roe

净资产收益率(%)

net_profit_ratio

净利率(%)

gross_profit_rate

net_profits

净利润(万元)

eps

business_income

营业收入(百万元)

bips

每股主营业务收入(元)

季度,数据季度更新。

阿里云MaxCompute(大数据)公开数据集---带你玩转人工智能影视及票房数据集TPC-DS数据集 1TB手把手,教你用MaxCompute+OpenSearch搭建分布式搜索引擎

eps_yoy

每股收益同比(%)

bvps

每股净资产

epcf

每股现金流量(元)

profits_yoy

净利润同比(%)

distrib

分配方案

report_date

发布日期

阿里云MaxCompute(大数据)公开数据集---带你玩转人工智能影视及票房数据集TPC-DS数据集 1TB手把手,教你用MaxCompute+OpenSearch搭建分布式搜索引擎

trde_date

日期

open

开盘价

high

最高价

close

收盘价

low

最低价

volume

成交量

price_change

价格变动

p_change

涨跌幅

ma5

5 日均价

ma10

10 日均价

ma20

20 日均价

v_ma5

5 日均量

v_ma10

10 日均量

v_ma20

20 日均量

turnover

换手率

股票代码

阿里云MaxCompute(大数据)公开数据集---带你玩转人工智能影视及票房数据集TPC-DS数据集 1TB手把手,教你用MaxCompute+OpenSearch搭建分布式搜索引擎

二手房产数据集

总体信息:二手房相关信息(注意:目前暂停更新)。

dwd_prouduct_house_basic_info_out

每日早10 点前更新。至2016 年12 月13 日开始更新,全量更新。

select * from public_data.dwd_prouduct_house_basic_info_out where ds= '20170113';

dwd_prouduct_house_basic_info_out信息说明

字段口型

是否是分区列

house_id

房产 id

house_city

房产所在城市

house_total_price

房产总价

house_unit_price

房产均价

house_type

房产类型

house_floor

房产楼层

house_direction

房产方向

house_deckoration

房产装修

house_area

房产面积

house_community_name

房产所在小区

house_region

房产所在地区

proj_name

楼盘名称

proj_addr

项目地址

period

产权年限

property

物业公司

greening_rate

绿化率

property_costs

物业费用

数据导入日期

阿里云MaxCompute(大数据)公开数据集---带你玩转人工智能影视及票房数据集TPC-DS数据集 1TB手把手,教你用MaxCompute+OpenSearch搭建分布式搜索引擎

总体信息:每日更新国内影视剧信息及票房数据信息 。

dwd_product_movie_basic_info 电影基本信息

ods_product_movie_box 票房基本信息

select * from public_data.dwd_product_movie_basic_info where ds ='20170112' limit 10;

<b>m</b><b>ov</b><b>i</b><b>e</b><b>_</b><b> </b><b>na</b><b>m</b><b>e</b><b> </b>

电影名称

<b>d</b><b>i</b><b>rc</b><b>t</b><b>o</b><b>r</b><b> </b>

导演

<b>scr</b><b>i</b><b>p</b><b>t</b><b>w</b><b>r</b><b>it</b><b>e</b><b>r</b>

编剧

<b>are</b><b>a</b>

制片地区/国家

<b>ac</b><b>t</b><b>or</b><b>s</b>

主演

<b>t</b><b>yp</b><b>e</b>

类型

<b>m</b><b>ov</b><b>i</b><b>e</b><b>_</b><b> </b><b>l</b><b>eng</b><b>t</b><b>h</b>

电影长度

<b>m</b><b>ov</b><b>i</b><b>e</b><b>_</b><b> </b><b>da</b><b>t</b><b>e</b>

上映日期

<b>m</b><b>ov</b><b>i</b><b>e</b><b>_</b><b> </b><b>l</b><b>anguag</b><b>e</b>

语言

<b>i</b><b>m</b><b>db</b><b>_</b><b> </b><b>ur</b><b>l</b>

imdb号

<b>d</b><b>s</b><b> </b>

阿里云MaxCompute(大数据)公开数据集---带你玩转人工智能影视及票房数据集TPC-DS数据集 1TB手把手,教你用MaxCompute+OpenSearch搭建分布式搜索引擎

<b>ran</b><b>k</b>

排名

<b>avgpr</b><b>i</b><b>c</b><b>e</b>

平均票价

<b>avppeop</b><b>l</b><b>e</b>

场均人次

<b>boxo</b><b>ffi</b><b>c</b><b>e</b>

单日票房(万)

<b>boxo</b><b>ffi</b><b>ce</b><b>_</b><b> </b><b>u</b><b>p</b><b> </b>

环比变化 (%)

<b>i</b><b>ran</b><b>k</b>

<b>m</b><b>ov</b><b>i</b><b>eda</b><b>y</b>

上映天数

<b>m</b><b>ov</b><b>i</b><b>ena</b><b>m</b><b>e</b><b> </b>

影片名

<b>su</b><b>m</b><b>boxo</b><b>ffi</b><b>c</b><b>e</b><b> </b>

累计票房(万)

<b>w</b><b>o</b><b>m</b><b>i</b><b>nde</b><b>x</b>

口碑指数

阿里云MaxCompute(大数据)公开数据集---带你玩转人工智能影视及票房数据集TPC-DS数据集 1TB手把手,教你用MaxCompute+OpenSearch搭建分布式搜索引擎

总体信息:tpc-ds是一套决策支持系统测试基准,主要针对零售行业。提供99个sql查询(sql99或2003),分析数据量大,测试数据与实际商业数据高度相似,同时具有各种业务模型(分析报告型,数据挖掘型等等) 。

public_data-非分区表

byte

mb

 

store_sales

132403186096

126270

catalog_sales

96618400536

92142

web_sales

48924735376

46658

store_returns

15258734432

14552

catalog_returns

9325156968

8893

web_returns

4776062944

4555

inventory

2354131064

2245

customer

545421520

520

customer_address

127890712

122

item

21917520

21

customer_demographics

2831808

2.70

catalog_page

1065000

1.02

date_dim

432592

0.41

time_dim

246576

0.24

store

68680

0.07

promotion

47976

0.05

web_page

32424

0.03

web_site

12000

0.01

call_center

10536

household_demographics

9448

warehouse

4640

&lt;0.01

ship_mode

2040

reason

1528

income_band

1040

更新时间:2018 年7 月13 日

<a href="https://yq.aliyun.com/attachment/download/?filename=tpcds_1t...%5b%e9%9a%90%e6%9e%97%5d.1531572762.zip" target="_blank">脚本下载</a>

基于公开数据集的实战

购买&amp;试用maxcompute,请加入扫码进钉钉群。公开数据集问题,请加入扫码进钉钉群。

阿里云MaxCompute(大数据)公开数据集---带你玩转人工智能影视及票房数据集TPC-DS数据集 1TB手把手,教你用MaxCompute+OpenSearch搭建分布式搜索引擎
阿里云MaxCompute(大数据)公开数据集---带你玩转人工智能影视及票房数据集TPC-DS数据集 1TB手把手,教你用MaxCompute+OpenSearch搭建分布式搜索引擎