一、
單選題
1. 某超市研究銷售紀錄資料後發現,買啤酒的人很大機率也會購買尿布,這種屬于資料挖掘的哪類問題?(a)
a. 關聯規則發現
b. 聚類
c. 分類
d. 自然語言處理
2. 以下兩種描述分别對應哪兩種對分類算法的評價标準? (a)
(a)警察抓小偷,描述警察抓的人中有多少個是小偷的标準。
(b)描述有多少比例的小偷給警察抓了的标準。
a. precision, recall
b. recall, precision
c. precision, roc
d. recall, roc
3. 将原始資料進行內建、變換、次元規約、數值規約是在以下哪個步驟的任務?(c)
a. 頻繁模式挖掘
b. 分類和預測
c. 資料預處理
d. 資料流挖掘
4. 當不知道資料所帶标簽時,可以使用哪種技術促使帶同類标簽的資料與帶其他标簽的資料相分離?(b)
a. 分類
c. 關聯分析
d. 隐馬爾可夫鍊
5. 什麼是kdd? (a)
a. 資料挖掘與知識發現
b. 領域知識發現
c. 文檔知識發現
d. 動态知識發現
6. 使用互動式的和可視化的技術,對資料進行探索屬于資料挖掘的哪一類任務?(a)
a. 探索性資料分析
b. 模組化描述
c. 預測模組化
d. 尋找模式和規則
7. 為資料的總體分布模組化;把多元空間劃分成組等問題屬于資料挖掘的哪一類任務?(b)
8. 建立一個模型,通過這個模型根據已知的變量值來預測其他某個變量值屬于資料挖掘的哪一類任務?(c)
a. 根據内容檢索
9. 使用者有一種感興趣的模式并且希望在資料集中找到相似的模式,屬于資料挖掘哪一類任務?(a)
11.下面哪種不屬于資料預處理的方法? (d)
a變量代換
b離散化
c聚集
d估計遺漏值
12. 假設12個銷售價格記錄組已經排序如下:5, 10, 11, 13, 15,35, 50, 55, 72, 92, 204, 215 使用如下每種方法将它們劃分成四個箱。等頻(等深)劃分時,15在第幾個箱子内? (b)
a 第一個
b 第二個
c 第三個
d 第四個
13.上題中,等寬劃分時(寬度為50),15又在哪個箱子裡? (a)
14.下面哪個不屬于資料的屬性類型:(d)
a 标稱
b 序數
c 區間
d相異
15. 在上題中,屬于定量的屬性類型是:(c)
d 相異
16. 隻有非零值才重要的二進制屬性被稱作:( c )
a 計數屬性
b 離散屬性
c非對稱的二進制屬性
d 對稱屬性
17. 以下哪種方法不屬于特征選擇的标準方法: (d)
a 嵌入
b 過濾
c 包裝
d 抽樣
18.下面不屬于建立新屬性的相關方法的是: (b)
a特征提取
b特征修改
c映射資料到新的空間
d特征構造
19. 考慮值集{1、2、3、4、5、90},其截斷均值(p=20%)是 (c)
a 2
b 3
c 3.5
d 5
20. 下面哪個屬于映射資料到新的空間的方法? (a)
a 傅立葉變換
b 特征權重
c 漸進抽樣
d 維歸約
21. 熵是為消除不确定性所需要獲得的資訊量,投擲均勻正六面體骰子的熵是: (b)
a 1比特
b 2.6比特
c 3.2比特
d 3.8比特
22. 假設屬性income的最大最小值分别是12000元和98000元。利用最大最小規範化的方法将屬性的值映射到0至1的範圍内。對屬性income的73600元将被轉化為:(d)
a 0.821
b 1.224
c 1.458
d 0.716
23.假定用于分析的資料包含屬性age。資料元組中age的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70, 問題:使用按箱平均值平滑方法對上述資料進行平滑,箱的深度為3。第二個箱子值為:(a)
a 18.3
b 22.6
c 26.8
d 27.9
24. 考慮值集{12 24 33 2 4 55 68 26},其四分位數極差是:(a)
a 31
b 24
c 55
d 3
25. 一所大學内的各年紀人數分别為:一年級200人,二年級160人,三年級130人,四年級110人。則年級屬性的衆數是: (a)
a 一年級
b二年級
c 三年級
d 四年級
26. 下列哪個不是專門用于可視化時間空間資料的技術: (b)
a 等高線圖
b 餅圖
c 曲面圖
d 矢量場圖
27. 在抽樣方法中,當合适的樣本容量很難确定時,可以使用的抽樣方法是: (d)
a 有放回的簡單随機抽樣
b 無放回的簡單随機抽樣
c 分層抽樣
d 漸進抽樣
28. 資料倉庫是随着時間變化的,下面的描述不正确的是 (c)
a. 資料倉庫随時間的變化不斷增加新的資料内容;
b. 捕捉到的新資料會覆寫原來的快照;
c. 資料倉庫随事件變化不斷删去舊的資料内容;
d. 資料倉庫中包含大量的綜合資料,這些綜合資料會随着時間的變化不斷地進行重新綜合.
29. 關于基本資料的中繼資料是指: (d)
a. 基本中繼資料與資料源,資料倉庫,資料集市和應用程式等結構相關的資訊;
b. 基本中繼資料包括與企業相關的管理方面的資料和資訊;
c. 基本中繼資料包括日志檔案和履歷執行處理的時序排程資訊;
d. 基本中繼資料包括關于裝載和更新處理,分析處理以及管理方面的資訊.
30. 下面關于資料粒度的描述不正确的是: (c)
a. 粒度是指資料倉庫小資料單元的詳細程度和級别;
b. 資料越詳細,粒度就越小,級别也就越高;
c. 資料綜合度越高,粒度也就越大,級别也就越高;
d. 粒度的具體劃分将直接影響資料倉庫中的資料量以及查詢品質.
31. 有關資料倉庫的開發特點,不正确的描述是: (a)
a. 資料倉庫開發要從資料出發;
b. 資料倉庫使用的需求在開發出去就要明确;
c. 資料倉庫的開發是一個不斷循環的過程,是啟發式的開發;
d. 在資料倉庫環境中,并不存在操作型環境中所固定的和較确切的處理流,資料倉庫中資料分析和處理更靈活,且沒有固定的模式
32. 在有關資料倉庫測試,下列說法不正确的是: (d)
a. 在完成資料倉庫的實施過程中,需要對資料倉庫進行各種測試.測試工作中要包括單元測試和系統測試.
b. 當資料倉庫的每個單獨元件完成後,就需要對他們進行單元測試.
c. 系統的內建測試需要對資料倉庫的所有元件進行大量的功能測試和回歸測試.
d. 在測試之前沒必要制定詳細的測試計劃.
33. olap技術的核心是: (d)
a. 線上性;
b. 對使用者的快速響應;
c. 互操作性.
d. 多元分析;
34. 關于olap的特性,下面正确的是: (d)
(1)快速性 (2)可分析性 (3)多元性 (4)資訊性 (5)共享性
a. (1) (2) (3)
b. (2) (3) (4)
c. (1) (2) (3) (4)
d. (1) (2) (3) (4) (5)
35. 關于olap和oltp的差別描述,不正确的是: (c)
a. olap主要是關于如何了解聚集的大量不同的資料.它與otap應用程式不同.
b. 與olap應用程式不同,oltp應用程式包含大量相對簡單的事務.
c. olap的特點在于事務量大,但事務内容比較簡單且重複率高.
d. olap是以資料倉庫為基礎的,但其最終資料來源與oltp一樣均來自底層的資料庫系統,兩者面對的使用者是相同的.
36. olam技術一般簡稱為”資料聯機分析挖掘”,下面說法正确的是: (d)
a. olap和olam都基于客戶機/伺服器模式,隻有後者有與使用者的互動性;
b. 由于olam的立方體和用于olap的立方體有本質的差別.
c. 基于web的olam是web技術與olam技術的結合.
d. olam伺服器通過使用者圖形借口接收使用者的分析指令,在中繼資料的知道下,對超級立方體作一定的操作.
37. 關于olap和oltp的說法,下列不正确的是: (a)
a. olap事務量大,但事務内容比較簡單且重複率高.
b. olap的最終資料來源與oltp不一樣.
c. oltp面對的是決策人員和高層管理人員.
d. oltp以應用為核心,是應用驅動的.
38. 設x={1,2,3}是頻繁項集,則可由x産生__(c)__個關聯規則。
a、4
b、5
c、6
d、7
40. 概念分層圖是__(b)__圖。
a、無向無環
b、有向無環
c、有向有環
d、無向有環
41. 頻繁項集、頻繁閉項集、最大頻繁項集之間的關系是: (c)
a、頻繁項集 頻繁閉項集 =最大頻繁項集
b、頻繁項集 = 頻繁閉項集 最大頻繁項集
c、頻繁項集 頻繁閉項集 最大頻繁項集
d、頻繁項集 = 頻繁閉項集 = 最大頻繁項集
42. 考慮下面的頻繁3-項集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定資料集中隻有5個項,采用 合并政策,由候選産生過程得到4-項集不包含(c)
a、1,2,3,4
b、1,2,3,5
c、1,2,4,5
d、1,3,4,5
43.下面選項中t不是s的子序列的是 ( c )
a、s=<{2,4},{3,5,6},{8}> t=<{2},{3,6},{8}>
b、s=<{2,4},{3,5,6},{8}> t=<{2},{8}>
c、s=<{1,2},{3,4}> t=<{1},{2}>
d、s=<{2,4},{2,4}> t=<{2},{4}>
44. 在圖集合中發現一組公共子結構,這樣的任務稱為 ( b )
a、頻繁子集挖掘
b、頻繁子圖挖掘
c、頻繁資料項挖掘
d、頻繁模式挖掘
45. 下列度量不具有反演性的是 (d)
a、系數
b、幾率
c、cohen度量
d、興趣因子
46. 下列__(a)__不是将主觀資訊加入到模式發現任務中的方法。
a、與同一時期其他資料對比
b、可視化
c、基于模闆的方法
d、主觀興趣度量
47. 下面購物籃能夠提取的3-項集的最大數量是多少(c)
id 購買項
1 牛奶,啤酒,尿布
2 面包,黃油,牛奶
3 牛奶,尿布,餅幹
4 面包,黃油,餅幹
5 啤酒,餅幹,尿布
6 牛奶,尿布,面包,黃油
7 面包,黃油,尿布
8 啤酒,尿布
9 牛奶,尿布,面包,黃油
10 啤酒,餅幹
a、1
b、2
c、3
d、4
48. 以下哪些算法是分類算法,(b)
a,dbscan
b,c4.5
c,k-mean
d,em
49. 以下哪些分類方法可以較好地避免樣本的不平衡問題, (a)
a,knn
b,svm
c,bayes
d,神經網絡
50. 決策樹中不包含一下哪種結點, (c)
a,根結點(root node)
b,内部結點(internal node)
c,外部結點(external node)
d,葉結點(leaf node)
51. 不純性度量中gini計算公式為(其中c是類的個數) (a)
a, b, c, d, (a)
53. 以下哪項關于決策樹的說法是錯誤的 (c)
a. 備援屬性不會對決策樹的準确率造成不利的影響
b. 子樹可能在決策樹中重複多次
c. 決策樹算法對于噪聲的幹擾非常敏感
d. 尋找最佳決策樹是np完全問題
54. 在基于規則分類器的中,依據規則品質的某種度量對規則排序,保證每一個測試記錄都是由覆寫它的“最好的”規格來分類,這種方案稱為 (b)
a. 基于類的排序方案
b. 基于規則的排序方案
c. 基于度量的排序方案
d. 基于規格的排序方案。
55. 以下哪些算法是基于規則的分類器 (a)
a. c4.5
b. knn
c. na?ve bayes
d. ann
56. 如果規則集r中不存在兩條規則被同一條記錄觸發,則稱規則集r中的規則為(c);
a, 無序規則
b,窮舉規則
c, 互斥規則
d,有序規則
57. 如果對屬性值的任一組合,r中都存在一條規則加以覆寫,則稱規則集r中的規則為(b)
58. 如果規則集中的規則按照優先級降序排列,則稱規則集是 (d)
59. 如果允許一條記錄觸發多條分類規則,把每條被觸發規則的後件看作是對相應類的一次投票,然後計票确定測試記錄的類标号,稱為(a)
60. 考慮兩隊之間的足球比賽:隊0和隊1。假設65%的比賽隊0勝出,剩餘的比賽隊1獲勝。隊0獲勝的比賽中隻有30%是在隊1的主場,而隊1取勝的比賽中75%是主場獲勝。如果下一場比賽在隊1的主場進行隊1獲勝的機率為 (c)
a,0.75
b,0.35
c,0.4678
d, 0.5738
61. 以下關于人工神經網絡(ann)的描述錯誤的有 (a)
a,神經網絡對訓練資料中的噪聲非常魯棒
b,可以處理備援特征
c,訓練ann是一個很耗時的過程
d,至少含有一個隐藏層的多層神經網絡
62. 通過聚集多個分類器的預測來提高分類準确率的技術稱為 (a)
a,組合(ensemble)
b,聚集(aggregate)
c,合并(combination)
d,投票(voting)
63. 簡單地将資料對象集劃分成不重疊的子集,使得每個資料對象恰在一個子集中,這種聚類類型稱作( b )
a、層次聚類
b、劃分聚類
c、非互斥聚類
d、模糊聚類
64. 在基本k均值算法裡,當鄰近度函數采用( a )的時候,合适的質心是簇中各點的中位數。
a、曼哈頓距離
b、平方歐幾裡德距離
c、餘弦距離
d、bregman散度
65.( c )是一個觀測值,它與其他觀測值的差别如此之大,以至于懷疑它是由不同的機制産生的。
a、邊界點
b、質心
c、離群點
d、核心點
66. birch是一種( b )。
a、分類器
b、聚類算法
c、關聯分析算法
d、特征選擇算法
67. 檢測一進制正态分布中的離群點,屬于異常檢測中的基于( a )的離群點檢測。
a、統計方法
b、鄰近度
c、密度
d、聚類技術
68.( c )将兩個簇的鄰近度定義為不同簇的所有點對的平均逐對鄰近度,它是一種凝聚層次聚類技術。
a、min(單鍊)
b、max(全鍊)
c、組平均
d、ward方法
69.( d )将兩個簇的鄰近度定義為兩個簇合并時導緻的平方誤差的增量,它是一種凝聚層次聚類技術。
70. dbscan在最壞情況下的時間複雜度是( b )。
a、o(m)
b、o(m2)
c、o(log m)
d、o(m*log m)
71. 在基于圖的簇評估度量表裡面,如果簇度量為proximity(ci , c),簇權值為mi ,那麼它的類型是( c )。
a、基于圖的凝聚度
b、基于原型的凝聚度
c、基于原型的分離度
d、基于圖的凝聚度和分離度
72. 關于k均值和dbscan的比較,以下說法不正确的是( a )。
a、k均值丢棄被它識别為噪聲的對象,而dbscan一般聚類所有對象。
b、k均值使用簇的基于原型的概念,而dbscan使用基于密度的概念。
c、k均值很難處理非球形的簇和不同大小的簇,dbscan可以處理不同大小和不同形狀的簇。
d、k均值可以發現不是明顯分離的簇,即便簇有重疊也可以發現,但是dbscan會合并有重疊的簇。
73. 以下是哪一個聚類算法的算法流程:①構造k-最近鄰圖。②使用多層圖劃分算法劃分圖。③repeat:合并關于相對互連性和相對接近性而言,最好地保持簇的自相似性的簇。④until:不再有可以合并的簇。( c )。
a、mst
b、opossum
c、chameleon
d、jarvis-patrick(jp)
74. 考慮這麼一種情況:一個對象碰巧與另一個對象相對接近,但屬于不同的類,因為這兩個對象一般不會共享許多近鄰,是以應該選擇( d )的相似度計算方法。
a、平方歐幾裡德距離
b、餘弦距離
c、直接相似度
d、共享最近鄰
75. 以下屬于可伸縮聚類算法的是( a )。
a、cure
b、denclue
c、clique
d、opossum
76. 以下哪個聚類算法不是屬于基于原型的聚類( d )。
a、模糊c均值
b、em算法
c、som
d、clique
77. 關于混合模型聚類算法的優缺點,下面說法正确的是( b )。
a、當簇隻包含少量資料點,或者資料點近似協線性時,混合模型也能很好地處理。
b、混合模型比k均值或模糊c均值更一般,因為它可以使用各種類型的分布。
c、混合模型很難發現不同大小和橢球形狀的簇。
d、混合模型在有噪聲和離群點時不會存在問題。
78. 以下哪個聚類算法不屬于基于網格的聚類算法( d )。
a、sting
b、wavecluster
c、mafia
d、birch
79. 一個對象的離群點得分是該對象周圍密度的逆。這是基于( c )的離群點定義。
a.機率
d、聚類
80. 下面關于jarvis-patrick(jp)聚類算法的說法不正确的是( d )。
a、jp聚類擅長處理噪聲和離群點,并且能夠處理不同大小、形狀和密度的簇。
b、jp算法對高維資料效果良好,尤其擅長發現強相關對象的緊緻簇。
c、jp聚類是基于snn相似度的概念。
d、jp聚類的基本時間複雜度為o(m)。
二、
多選題
1. 通過資料挖掘過程所推倒出的關系和摘要經常被稱為:(a b)
a. 模型
b. 模式
c. 模範
d. 模具
2 尋找資料集中的關系是為了尋找精确、友善并且有價值地總結了資料的某一特征的表示,這個過程包括了以下哪些步驟? (a b c d)
a. 決定要使用的表示的特征和結構
b. 決定如何量化和比較不同表示拟合資料的好壞
c. 選擇一個算法過程使評分函數最優
d. 決定用什麼樣的資料管理原則以高效地實作算法。
3. 資料挖掘的預測模組化任務主要包括哪幾大類問題? (a b)
b. 回歸
c. 模式發現
d. 模式比對
4. 資料挖掘算法的元件包括:(a b c d)
a. 模型或模型結構
b. 評分函數
c. 優化和搜尋方法
d. 資料管理政策
5. 以下哪些學科和資料挖掘有密切聯系?(a d)
a. 統計
b. 計算機組成原理
c. 礦産挖掘
d. 人工智能
6. 在現實世界的資料中,元組在某些屬性上缺少值是常有的。描述處理該問題的各種方法有: (ABCDE)
a忽略元組
b使用屬性的平均值填充空缺值
c使用一個全局常量填充空缺值
d使用與給定元組屬同一類的所有樣本的平均值
e使用最可能的值填充空缺值
7.下面哪些屬于可視化高維資料技術 (ABCE)
a 矩陣
b 平行坐标系
c星形坐标 d散布圖
e chernoff臉
8. 對于資料挖掘中的原始資料,存在的問題有: (ABCDE)
a 不一緻
b重複
c不完整
d 含噪聲
e 次元高
9.下列屬于不同的有序資料的有:(ABCE)
a 時序資料
b 序列資料
c時間序列資料
d事務資料
e空間資料
10.下面屬于資料集的一般特性的有:( b c d)
a 連續性
b 次元
c 稀疏性
d 分辨率
e 相異性
11. 下面屬于維歸約常用的線性代數技術的有: (a c)
a 主成分分析
b 特征提取
c 奇異值分解
d 特征權重
e 離散化
12. 下面列出的條目中,哪些是資料倉庫的基本特征: (acd)
a. 資料倉庫是面向主題的
b. 資料倉庫的資料是內建的
c. 資料倉庫的資料是相對穩定的
d. 資料倉庫的資料是反映曆史變化的
e. 資料倉庫是面向事務的
13. 以下各項均是針對資料倉庫的不同說法,你認為正确的有(bcde )。
a.資料倉庫就是資料庫
b.資料倉庫是一切商業智能系統的基礎
c.資料倉庫是面向業務的,支援聯機事務處理(oltp)
d.資料倉庫支援決策而非事務處理
e.資料倉庫的主要目标就是幫助分析,做長期性的戰略制定
14. 資料倉庫在技術上的工作過程是: (abcd)
a. 資料的抽取
b. 存儲和管理
c. 資料的表現
d. 資料倉庫設計
e. 資料的表現
15. 聯機分析處理包括以下哪些基本分析功能? (bcd)
a. 聚類
b. 切片
c. 轉軸
d. 切塊
e. 分類
16. 利用apriori算法計算頻繁項集可以有效降低計算頻繁集的時間複雜度。在以下的購物籃中産生支援度不小于3的候選3-項集,在候選2-項集中需要剪枝的是(bd)
id 項集
1 面包、牛奶
2 面包、尿布、啤酒、雞蛋
3 牛奶、尿布、啤酒、可樂
4 面包、牛奶、尿布、啤酒
5 面包、牛奶、尿布、可樂
a、啤酒、尿布
b、啤酒、面包
c、面包、尿布
d、啤酒、牛奶
17. 下表是一個購物籃,假定支援度門檻值為40%,其中__(a d)__是頻繁閉項集。
tid 項
1 abc
2 abcd
3 bce
4 acde
5 de
a、abc
b、ad
c、cd
d、de
18. apriori算法的計算複雜度受__(abcd)?__影響。
a、支援度閥值
b、項數(次元)
c、事務數
d、事務平均寬度
19. 非頻繁模式__(ad)__
a、其支援度小于門檻值
b、都是不讓人感興趣的
c、包含負模式和負相關模式
d、對異常資料項敏感
20. 以下屬于分類器評價或比較尺度的有: (acd)
a,預測準确度
b,召回率
c,模型描述的簡潔度
d,計算複雜度
21. 在評價不平衡類問題分類的度量方法有如下幾種,(abcd)
a,f1度量
b,召回率(recall)
c,精度(precision)
d,真正率(ture positive rate,tpr)
22. 貝葉斯信念網絡(bbn)有如下哪些特點, (ab)
a,構造網絡費時費力
b,對模型的過分問題非常魯棒
c,貝葉斯網絡不适合處理不完整的資料
d,網絡結構确定後,添加變量相當麻煩
23. 如下哪些不是最近鄰分類器的特點, (c)
a,它使用具體的訓練執行個體進行預測,不必維護源自資料的模型
b,分類一個測試樣例開銷很大
c,最近鄰分類器基于全局資訊進行預測
d,可以生産任意形狀的決策邊界
24. 如下那些不是基于規則分類器的特點,(ac)
a,規則集的表達能力遠不如決策樹好
b,基于規則的分類器都對屬性空間進行直線劃分,并将類指派到每個劃分
c,無法被用來産生更易于解釋的描述性模型
d,非常适合處理類分布不平衡的資料集
25. 以下屬于聚類算法的是( abd )。
a、k均值
b、dbscan
c、apriori
d、jarvis-patrick(jp)
26.( cd )都屬于簇有效性的監督度量。
a、輪廓系數
b、共性分類相關系數
c、熵
d、f度量
27. 簇有效性的面向相似性的度量包括( bc )。
a、精度
b、rand統計量
c、jaccard系數
d、召回率
28.( abcd )這些資料特性都是對聚類分析具有很強影響的。
a、高維性
b、規模
c、稀疏性
d、噪聲和離群點
29. 在聚類分析當中,( ad )等技術可以處理任意形狀的簇。
d、chameleon
30. ( ab )都屬于分裂的層次聚類算法。
a、二分k均值
b、mst
d、組平均