天天看点

DC学院数据分析学习笔记(一):获取数据数据获取的方式

在DC学院上买了个数据分析的课程,OK!说干就干,记录下学习的笔记,希望能有所收获( ̄︶ ̄)↗

开放数据集

网站爬虫

科研数据共享

数据算法竞赛:DC学院,天池,kaggle

政府公司分享

个人分享

这个没什么好说的,科学上网,国外网站多的是!

建立网站连接

爬取网页/API

分析返回结果

抽取所需信息

爬虫分两大类:

基于网站API的爬取:一般返回格式是JSON,这个和阿里云API返回的格式是一样的

基于网页的爬取:这个就比较难了,用过API的都明白(/▽\)

OK,刚学习了简单的网站API的爬取,下面实践一下!

我们可以访问请求的url来获取想要的信息

DC学院数据分析学习笔记(一):获取数据数据获取的方式

但这样显然太麻烦了,我们也可以通过python的urllib包来解决问题

DC学院数据分析学习笔记(一):获取数据数据获取的方式

返回的格式是JSON

JSON 指的是 JavaScript 对象表示法(JavaScript Object Notation)

JSON 是轻量级的文本数据交换格式

JSON 独立于语言 ,JSON 使用 JavaScript 语法来描述数据对象,但是 JSON 仍然独立于语言和平台。JSON 解析器和 JSON 库支持许多不同的编程语言。

JSON 具有自我描述性,更易理解

数据在名称/值对中(如:"Day" : "Sunday"),数据由逗号,分隔花括号保存对象,方括号保存数组

然后我们用python解析JSON,假设我们要获取的是上文(如图)“rating”中“average"键所对应的值

DC学院数据分析学习笔记(一):获取数据数据获取的方式

来和浏览网站的时候所看到的对比一下

DC学院数据分析学习笔记(一):获取数据数据获取的方式

如果需要将获得的数据存到本地,同样可以用python轻松解决

DC学院数据分析学习笔记(一):获取数据数据获取的方式

在本地看一下

DC学院数据分析学习笔记(一):获取数据数据获取的方式

获取多部电影

DC学院数据分析学习笔记(一):获取数据数据获取的方式

这样是不是还不够便捷?

能不能输入一些电影名字,然后直接返回我们需要的信息,如评分呢?

OK,还是用到API,不过这里用到了”电影搜索“的API:

DC学院数据分析学习笔记(一):获取数据数据获取的方式
DC学院数据分析学习笔记(一):获取数据数据获取的方式

很OK!

下面看代码!

DC学院数据分析学习笔记(一):获取数据数据获取的方式
今天数据分析就学习了这么多,OK!希望能有所收获( ̄︶ ̄)↗