資料分析 Task 5:作者資訊關聯
1 任務說明
學習主題:作者關聯(資料模組化任務),對論文作者關系進行模組化,統計最常出現的作者關系;
學習内容:建構作者關系圖,挖掘作者關系
學習成果:論文作者知識圖譜、圖關系挖掘
2 資料處理步驟
将作者清單進行處理,并完成統計。具體步驟如下:
将論文第一作者與其他作者(論文非第一作者)建構圖;
使用圖算法統計圖中作者與其他作者的聯系;
3 社交網絡分析
圖是複雜網絡研究中的一個重要概念。Graph是用點和線來刻畫離散事物集合中的每對事物間以某種方式相聯系的數學模型。Graph在現實世界中随處可見,如交通運輸圖、旅遊圖、流程圖等。利用圖可以描述現實生活中的許多事物,如用點可以表示交叉口,點之間的連線表示路徑,這樣就可以輕而易舉的描繪出一個交通運輸網絡。
3.1 圖類型
- 無向圖,忽略了兩節點間邊的方向。
- 指有向圖,考慮了邊的有向性。
- 多重無向圖,即兩個結點之間的邊數多于一條,又允許頂點通過同一條邊和自己關聯。
3.2 圖統計名額
- 度:是指和該節點相關聯的邊的條數,又稱關聯度。對于有向圖,節點的入度 是指進入該節點的邊的條數;節點的出度是指從該節點出發的邊的條數;
- 迪傑斯特拉路徑:.從一個源點到其它各點的最短路徑,可使用迪傑斯特拉算法來求最短路徑;
- 連通圖:在一個無向圖 G 中,若從頂點i到頂點j有路徑相連,則稱i和j是連通的。如果 G 是有向圖,那麼連接配接i和j的路徑中所有的邊都必須同向。如果圖中任意兩點都是連通的,那麼圖被稱作連通圖。如果此圖是有向圖,則稱為強連通圖。
對于其他圖算法,可以在networkx和igraph兩個庫中找到。
4 具體代碼
建立作者連結的無向圖:
data = [] #初始化
#使用with語句優勢:1.自動關閉檔案句柄;2.自動顯示(處理)檔案讀取資料異常
with open("E:/Program Files/datawhale學習/jupyter/arxiv-metadata-oai-snapshot.json", 'r') as f:
for idx, line in enumerate(f):
d = json.loads(line)
d = {'authors_parsed': d['authors_parsed']}
data.append(d)
data = pd.DataFrame(data) #将list變為dataframe格式,友善使用pandas進行分析
import networkx as nx
# 建立無向圖
G = nx.Graph()
# 隻用五篇論文進行建構
for row in data.iloc[:5].itertuples():
authors = row[1]
authors = [' '.join(x[:-1]) for x in authors]
# 第一個作者 與 其他作者連結
for author in authors[1:]:
G.add_edge(authors[0],author) # 添加節點2,3并連結23節點
将作者關系圖進行繪制:
nx.draw(G, with_labels=True)

如果我們500篇論文建構圖,則可以得到更加完整作者關系,并選擇最大聯通子圖進行繪制,折線圖為子圖節點度值。
以下内容按照500篇繪圖
# 計算論文關系中有多少個聯通子圖
degree_sequence = sorted([d for n, d in G.degree()], reverse=True)
dmax = max(degree_sequence)
plt.loglog(degree_sequence, "b-", marker="o")
plt.title("Degree rank plot")
plt.ylabel("degree")
plt.xlabel("rank")
# draw graph in inset
plt.axes([0.45, 0.45, 0.45, 0.45])
Gcc = G.subgraph(sorted(nx.connected_components(G), key=len, reverse=True)[0])
pos = nx.spring_layout(Gcc)
plt.axis("off")
nx.draw_networkx_nodes(Gcc, pos, node_size=20)
nx.draw_networkx_edges(Gcc, pos, alpha=0.4)
plt.show()
感謝datawhale的組隊學習,了解到了一些入門的知識和具體的操作,其中還有很多需要仔細學習和提高,今後繼續努力!