祝自己生日快樂 | 利用Python和R分析一年寫作

想不清自己有多久沒有過生日了，即便是18歲那年的生日，也是上完課照常回去。或許是我的日子過得過于渾渾噩噩，沒有什麼可以慶祝，或許我認為過生日是過于矯情的一種行為吧。

但是反刻奇也是一種刻奇，沒有必要堅持不過，顯得自己标新立異。而這一年或許是我生長最多的一年，或許是我高中畢業後打字最多的一年了，記錄了大量文字在我的簡書，公衆号，為知筆記，GitHub Page。

時間匆忙，是以隻能對我簡書釋出的文章做了簡單的資料分析。

資料擷取

我用Python從簡書上爬取了我所有文章的釋出時間，題目名和連接配接，把他們存放在了MySQL裡。

首先，定義資料庫結構

# 建立資料庫
mysqladmin.exe -u root -p create jianshu
# 建立資料表
use jianshu;
CREATE TABLE `master` (
    `id` int(11) NOT NULL AUTO_INCREMENT,
    `time` varchar(255) COLLATE utf8_bin NOT NULL,
    `url` varchar(255) COLLATE utf8_bin NOT NULL,
    `title` varchar(255) COLLATE utf8_bin NOT NULL,
    PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COLLATE=utf8_bin
AUTO_INCREMENT=1 ;

其次，寫爬蟲爬取資料

import time
import re
import requests
from random import randint
def data_parse(url, headers=None ):
    response = requests.get(url)
    pattern = re.compile(r'<span class="time" data-shared-at="(.*?)">.*?<a class="title".*?href="(/./.*?)">(.*?)</a>',flags=re.S)
    results = re.findall(pattern, response.text) 
    time.sleep(randint(1,5))
    for res in results:
        names = ["time","url","title"]
        info_dict = dict(list(zip(names,res)))
        yield info_dict

為了不給他們伺服器太大壓力，爬取之間有1到3秒的延遲。利用正則提取目标區域

最後運作

for i in range(0,16):
    url = 'http://www.jianshu.com/u/9ea40b5f607a?order_by=shared_at&page=' + str(i)
    dicts = data_parse(url)
    save_data(db="jianshu",password="********",dicts=dicts)

簡書采用的是瀑布流方式展示資訊，是以需要檢視頁面了解規律。

簡單資料分析

從資料庫加載資料

require(RMySQL)

con <- dbConnect(RMySQL::MySQL(), 
                 host="localhost", 
                 user="root", 
                 port=3306,
                 password="********", 
                 dbname="jianshu")
tables <- dbReadTable(con, 'master')
Encoding(tables$title) <- "UTF-8"

注意：要使用

Encoding

處理編碼問題

分析文章時間分布

簡單看下從去年5月份到8月份，我的寫作分布

require(tidyverse)
time_matrix <- str_match(tables$time, '(\\d+-\\d+-\\d+)T(\\d{2}):(\\d{2})')
time_matrix <- as.tibble(time_matrix)
colnames(time_matrix) <- c('date','ymd','hour','minutes')
time_matrix$ymd <- as.Date(time_matrix$ymd)

month_df <- time_matrix %>% mutate(ym = str_c(str_sub(ymd, 1,7),'-01')) %>% group_by(ym) %>% summarise(articles=n()) %>% ungroup() %>% mutate(ym=as.Date(ym, "%Y-%m-%d"))
p1 <- ggplot(month_df, aes(x=ym,y=articles)) + geom_bar(stat = "identity")
# 添加資料标簽
p1 + geom_text(aes(label=articles), vjust=1.5, colour="white")

2016年5月11日，我剛開通簡書，而那個月文章釋出不可思議的多，一共發了29篇，6月也有26篇。然後後面基本就沒寫了，原因就是我在家裡學車，荒廢人生中。從今年2月份開始，我重建立起了簡書，後面基本上保持每個月10多篇的産出。

然後，我們還可以看下每天的時間段分布：

day_df <- time_matrix %>% group_by(hour) %>% summarise(hours=n())
ggplot(day_df, aes(x=hour, y=hours)) + geom_bar(stat="identity") + geom_text(aes(label=hours), vjust=-1.5) + ylim(0,20)

從早上7點到晚上23點基本都有文章釋出，說明了我沒事就發，寫好就發的特點

标題分析

本來我是想對我的文章内容進行分析的，但是時間有限，是以退而求其次，隻能對标題進行分析了。

require(jiebaR)
require(wordcloud2)
cutter <- worker()
words <- cutter <= tables$title
word_tb <- filter_segment(words, c("的","組","更","的","在","和"))
word_tb <- table(word_tb)
wordcloud2(word_tb, size=0.5, shape='cardioid')

Python, 爬蟲，資料分析，R 這些其實是貫穿我這一年的關鍵詞。經過這一年的時間，至少我能用這些技能做一篇文章的分析了。

最後說幾句

其實也沒有啥好說的，希望接下來一年自己能有更多的進步，給自己提供更多的資料進行分析，有更多的資訊能夠挖掘。

祝自己生日快樂 | 利用Python和R分析一年寫作

資料擷取

簡單資料分析

分析文章時間分布

标題分析

最後說幾句

繼續閱讀

《Linux指令行與Shell腳本程式設計大全第2版.布盧姆》pdf

MySQL的4種隔離級别？出現問題

XX系統實施過程問題總結

無元件上傳圖檔到資料庫中，最完整解決方案

【MySQL資料庫】資料庫索引事務1.索引2.事務

neo4j之cypher使用文檔

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

NOSQL安全攻擊

mybatis_入門程式Mybatis入門

登入plsql 報錯 the account is locked --使用者被鎖

SequoiaDB巨杉資料庫C++驅動概述

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入