天天看點

《中國人工智能學會通訊》——8.38 文獻統計分析

基本資訊統計分析在軟體工程領域,演化算法得到了廣泛的應用。圖 3 為基于搜尋的軟體工程領域從 1992—2015 年各年發表文章數的統計情況。從圖中可以看出,從1992 年開始,各年發表的文章數量整體呈現上升趨勢,并且在最近幾年趨于穩定。

《中國人工智能學會通訊》——8.38 文獻統計分析

如表 1 所示,在篩選 949 篇文獻中使用次數最多的 6 種演化算法分别是遺傳算法(GeneticAlgorithm)、遺傳程式設計 (Genetic Programming)、模拟退火算法(Simulated Annealing)、蟻群算法(Ant Colony Optimization)、 爬 山 算 法(HillClimbing) 以 及 粒 子 群 算 法(Particle SwarmOptimization)。 其 中,Genetic Algorithm 出現次數最多且遠遠高于其他算法,說明 GeneticAlgorithm 在基于搜尋的軟體工程領域有着十分重要的地位。但演化算法種類繁多,且原理不盡相同,是以針對不同的問題研究者采用了豐富的演化算法以解決軟體工程問題。

《中國人工智能學會通訊》——8.38 文獻統計分析

經統計,在篩選出的 949 篇演化計算相關文章,作者共計 1 337 人,學術機構共計 444 個,國家共計 50 個。圖 4 展示了前十名高産作者的資訊,從圖中可以看出 Mark Harman 的文章數為 69 篇,遠遠高于其他作者;排名在第二、三位的作者為 AndreaArcuri 和 Xin Yao,分别發表文章 33 篇和 28 篇。是以在面向軟體工程的演化算法研究中,主要有兩類比較活躍的群體,第一類為主要從事演化計算的研究工作,并把研究成功應用于軟體工程的研究者,如 Xin Yao 等;第二類為在軟體工程領域引入已有的成熟的演化算法的研究者,如 Mark Harman 等。

《中國人工智能學會通訊》——8.38 文獻統計分析

在學術機構統計方面,本文在表 2 中列出發表文章數最多的十個學術機構的資訊。由于每篇論文的作者衆多,本文隻統計第一作者所在的學術機構。從表中可以看出,排名前十的學術機構發表的文章數均超過 10 篇,而且發表文章數排在前兩名的機構 University College London 和 University ofYork 發表文章超過 20 篇。

《中國人工智能學會通訊》——8.38 文獻統計分析

在國家資訊方面,圖 5 列出了第一作者所屬國家發表論文的排名情況。從圖中可以看出,發表文章數排在前四名的國家為英國、美國、中國和印度,它們發表文章數量之和已經接近所有國家發表文章總數的一半,這說明在基于搜尋的軟體工程領域,特别是利用已有的演化算法或改進的演化算法解決軟體工程問題方面,這四個國家處于世界領先水準。同時還可以看出,排在前十名的國家發表文章的數量之和已經接近所有國家發表文章總數的四分之三。

《中國人工智能學會通訊》——8.38 文獻統計分析

接下來本文對所調研的文獻的出版機構進行統計。圖 6 列出了發表數排在前十名的期刊和會議名稱。可以看出,這 10 個期刊和會議均發表了超過 10篇基于搜尋的軟體工程文章,其中排名第一的會議GECCO 發表文章超過了 100 篇,是唯一一個發表文章數超過 100 篇的出版機構。可以看出,基于搜尋的軟體工程不僅在軟體工程領域迅速發展,也在演化算法的相關主流會議上發表了大量的研究成果。

《中國人工智能學會通訊》——8.38 文獻統計分析

最後本文進行關鍵詞統計分析。表 3 給出了使用次數最多的 10 個關鍵詞。從表中可以看出,出現次數最多的 10 個關鍵詞可以分為兩個類别,Genetic Algorithm、Genetic Programming、Simulated Annealing、Ant Colony Optimization等代表文章中用到的算法,而 Software Testing、Software Quality、Test Data Generation、FitnessFunction、Cost、Software Maintenance 則 代 表不同的研究方向。其中,出現次數最多的兩個關鍵詞 Genetic Algorithm 和 Software Testing 遠 遠 高于其他關鍵詞的出現次數,是以可以認為 GeneticAlgorithm 是基于搜尋的軟體工程領域應用最廣泛的算法;而在不同的研究方向上,軟體測試是基于搜尋的軟體工程領域中最活躍的研究方向。

《中國人工智能學會通訊》——8.38 文獻統計分析

同時在圖 7 中給出了出現次數最多的 5 個關鍵詞曆年出現次數的變化情況。這些關鍵詞基本都呈現了大體相同的走勢,而且與曆年來該領域發表文章數的走勢基本吻合。

《中國人工智能學會通訊》——8.38 文獻統計分析

影響力分析

本文從文章影響力和作者影響力兩方面對面向軟體工程的演化算法進行研究。

對于文章影響力,主要分析文章的引用情況和NCII 指數(Normalized Citation Impact Index) [7] 。其中文章的引用數是衡量這篇文章影響力的最直接的标準,但考慮到發表時間較早的文章通常容易被更多的文章所引用,本文同時分析了文章NCII指數,NCII 指數的公式為

《中國人工智能學會通訊》——8.38 文獻統計分析

表 4 和表 5 分别列出引用數排在前十名和 NCII指數排在前十名的文章。引用數排在前十名的文章被引用次數均超過了 300 次,而 NCII 指數前十名的文章的 NCII 指數也均超過了 30,其中引用數排在前兩名的文章其NCII指數也是前兩名。有趣的是,與關鍵詞分析的結果類似,排在前兩名的文章分别和軟體測試與 Genetic Algorithm 有關。

《中國人工智能學會通訊》——8.38 文獻統計分析

對于作者影響力,主要分析了作者所發表相關論文的引用數。表 6 給出了引用數排在前十名的作者資訊。可以看出這些作者的引用數均超過了1 000 次,可以從一個側面反映在軟體工程領域應用進化算法得到了研究者的普遍關注。

《中國人工智能學會通訊》——8.38 文獻統計分析

繼續閱讀