困擾了我很久的問題,可能是我喜歡知根知底。見到論文中提到的2009-2010,看到代碼中是資料不太一樣發出了疑問
常見論文資料集介紹
![](https://img.laitimes.com/img/__Qf2AjLwojIjJCLyojI0JCLiAzNfRHLGZkRGZkRfJ3bs92YsYTMfVmepNHLsZ1MjxmVzMGaW12Ys50MMBjVtJWd0ckW65UbM5WOHJWa5kHT20ESjBjUIF2X0hXZ0xCMx81dvRWYoNHLrdEZwZ1Rh5WNXp1bwNjW1ZUba9VZwlHdssmch1mclRXY39CXldWYtlWPzNXZj9mcw1ycz9WL49zZuBnL5kjNyADOzUTM1AjNwEjMwIzLc52YucWbp5GZzNmLn9Gbi1yZtl2Lc9CX6MHc0RHaiojIsJye.png)
論文 Improving Knowledge Tracing via Pre-training Question Embeddings
Convolutional Knowledge Tracing: Modeling Individualization in Student Learning Process
Deep Knowledge Tracing and Dynamic Student Classification for Knowledge Tracing
RKT : Relation-Aware Self-Attention for Knowledge Tracing
Knowledge Tracing with Sequential Key-Value Memory Networks
ASSISTment 2009-2010
https://sites.google.com/site/assistmentsdata/home/assistment-2009-2010-data描述
2009~2010學年收集的ASSISTment資料。完整資料集分為兩個不同的檔案,一個是所有技能建構者資料,一個是所有非技能建構者資料。
來自 <https://sites.google.com/site/assistmentsdata/home/assistment-2009-2010-data>
技能建設者資料也稱為精通學習資料。此資料集來自技能建構者(精通學習)問題集,其中滿足某個條件 (通常設定為連續正确回答3個問題)時,學生被視為掌握了技能 ,并且精通後不會再給出任何問題。
這是備受關注的資料集。單擊下面的
2009-2010年技能培養者資料:
非技能生成器資料 2009-10:
援助2009-2010完整資料集:
該檔案包含來自上述兩個資料集的資料,此外,它還包含與問題集類型無關的資料。
您可以嘗試将這些資料用于的可能研究問題。
RQ1:預測學生表現
教育資料挖掘領域多年來一直在建立學生模型以适合學生資料并預測學生表現。使用ASSISTment資料來預測學生的表現已經做了大量的研究。他們中的一些人正在預測學生的下一個表現,例如在論文中: “援助”模型:利用學生需要多少提示和嘗試 ;其中一些是在一段時間間隔後預測學生的表現,例如在論文中: 使用學生模組化來估計學生知識 保留。
RQ2:個性化
已經在個性化學生模型方面做出了努力。研究表明,通過個性化學生參數可以改進模型拟合。
以下是使用ASSISTment資料在該領域進行的一些工作示例:
學生技能模型
貝葉斯網絡中的知識跟蹤個人化模組化
RQ3:車輪旋轉
車輪打轉是指學生可能難以從問題集中學習技能的情況。如何檢測車輪旋轉在智能輔導系統中很有用。
有關更多詳細資訊,請參見以下文章: 旋轉:未熟練掌握技能的學生
RQ4:群集
以前的工作已經顯示了聚類學生在預測學生表現方面的一些好處。可以探索不同的聚類特征和不同的聚類方法,以更好地改進學生模型。
以下是使用 ASSISTment 資料完成的聚類工作的一些示例:
對學生進行聚類以生成合奏以提高标準考試成績的預測
教育資料挖掘中的譜聚類
列标題(此清單是舊的,我們在此處對其中一些字段進行了更完整的描述)
子頁面(3): 組合資料集 2009-10非技能建構
資料在這裡:
https://drive.google.com/file/d/0B2X0QD6q79ZJUFU1cjYtdGhVNjg/view?usp=sharing
它是在這裡舉辦的:
http://users.wpi.edu/~yutaowang/data/skill_builder_data.csv
更新:在上述連結的資料集中檢測到重複的資料記錄。可以在這裡找到更正的版本:
該檔案包含每個學生問題技能的一行(即,如果學生 S 回答具有兩個技能的問題 P,則除技能辨別符外,所有字段中将有兩行具有重複值):
https://drive.google.com/file/d/0B3f_gAH-MpBmUmNJQ3RycGpJM0k/view?usp=sharing
該檔案每個學生問題包含一行(即,如果學生S回答了具有兩個技能的問題P,則這兩個技能将被折疊為格式skill1_skill2并以單行表示):
https://drive.google.com/file/d/1NNXHFRxcArrU0ZJSb9BIL56vmUt5FhlE/view?usp=sharing
該檔案包含ASSISTments的Skill-Builder問題集中的資料。
技能建構者問題集具有以下功能:
- 問題基于一項特定技能,一個問題可以具有多個技能标簽。
- 學生必須連續回答三個正确的問題才能完成作業。
- 如果學生使用輔導(“提示”或“将這個問題分解為步驟”),問題将被标記為不正确;
- 學生将立即知道他們是否正确回答了問題;
- 如果學生自己無法解決問題,最後的提示會給學生答案;
- 目前, 此功能僅适用于數學問題集。
- try_count
- 學生嘗試解決此問題的次數。
- ms_first_response
- 學生第一次響應的時間(以毫秒為機關)。
- tutor_mode
- 導師、測試模式、前測或後測
- answer_type
- 選擇_1:多項選擇(單選按鈕)
- 代數:數學計算字元串(文本框)
- fill_in:簡單的字元串比較答案(文本框)
- open_response:記錄學生的回答,但他們的回答總是被标記為正确
- sequence_id
- 問題集的内容 ID。配置設定相同問題集的不同作業将具有相同的序列 ID。
- student_class_id
- 類ID。
- 位置
- 課堂作業頁面上的作業位置。
- problem_set_type
- 線性 - 學生按預定順序完成所有問題。
- 随機 - 學生完成所有問題,但每個學生都以不同的随機順序呈現問題。
- 掌握 - 随機順序;并且學生必須通過連續糾正一定數量的問題(預設為3個)來“掌握”問題集,然後才能繼續。
- base_sequence_id
- 這是為了說明是否已複制序列。這将指向原始副本,如果尚未複制,則與sequence_id相同。
- 技能ID
- 與問題相關的技能的ID。
- 對于技能建構器資料集,同一資料記錄的不同技能位于不同的行中。這意味着,如果學生回答一項多技能問題,則該記錄将重複多次,并且每次重複都将使用一項多技能标記。
- 對于非技能生成器資料集,同一資料記錄的不同技能在同一行中,用逗号分隔。
- 技能名稱
- 與問題相關的技能名稱。
- 對于技能建構器資料集,同一資料記錄的不同技能位于不同的行中。這意味着,如果學生回答一項多技能問題,則該記錄将重複多次,并且每次重複都将使用一項多技能标記。
- 對于非技能生成器資料集,同一資料記錄的不同技能在同一行中,用逗号分隔。
- Teacher_id
- 配置設定問題的老師的 ID。
- 學校 ID
- 配置設定問題的學校的 ID。
- hint_count
- 學生嘗試解決此問題的次數。
- hint_total
- 關于此問題的可能提示數。
- overlay_time
- 學生重疊時間的時間(以毫秒為機關)。
- template_id
- ASSISTment的模闆 ID 。具有相同模闆ID的助手有相似的問題。
- answer_id
- 多項選擇題的答案ID。
- answer_text
- 填寫問題的答案文本。
- 第一個動作
- 第一個動作的類型:嘗試或請求提示。
- bottom_hint
- 學生是否要求所有提示。
- 機會
- 學生必須練習此技能的機會數量。
- 對于技能建構者資料集,同一資料記錄中不同技能的機會位于不同的行中。這意味着如果學生回答了一個多技能問題,該記錄将被複制多次,并且每個重複都被标記為多技能之一和相應的機會計數。
- 對于非技能建構者資料集,同一資料記錄中不同技能的機會在同一行中,并用逗号分隔。
- 機會_原始
- 學生必須練習此技能的機會數量僅計算原始問題。
- 對于技能建構器資料集,同一資料記錄的不同技能的原始機會位于不同的行中。這意味着如果學生回答了一個多技能問題,這個記錄會被複制幾次,每個重複都被标記為多技能之一和相應的原始機會計數。
- 對于非技能建構者資料集,同一資料記錄的不同技能的原始機會在同一行中,用逗号分隔。
-
子頁面(3): 組合資料集 2009-10非技能建構
資料在這裡:
https://drive.google.com/file/d/0B2X0QD6q79ZJUFU1cjYtdGhVNjg/view?usp=sharing
它是在這裡舉辦的:
http://users.wpi.edu/~yutaowang/data/skill_builder_data.csv
更新:在上述連結的資料集中檢測到重複的資料記錄。可以在這裡找到更正的版本:
該檔案包含每個學生問題技能的一行(即,如果學生 S 回答具有兩個技能的問題 P,則除技能辨別符外,所有字段中将有兩行具有重複值):
https://drive.google.com/file/d/0B3f_gAH-MpBmUmNJQ3RycGpJM0k/view?usp=sharing
該檔案每個學生問題包含一行(即,如果學生S回答了具有兩個技能的問題P,則這兩個技能将被折疊為格式skill1_skill2并以單行表示):
https://drive.google.com/file/d/1NNXHFRxcArrU0ZJSb9BIL56vmUt5FhlE/view?usp=sharing
該檔案包含ASSISTments的Skill-Builder問題集中的資料。
技能建構者問題集具有以下功能:
- 問題基于一項特定技能,一個問題可以具有多個技能标簽。
- 學生必須連續回答三個正确的問題才能完成作業。
- 如果學生使用輔導(“提示”或“将這個問題分解為步驟”),問題将被标記為不正确;
- 學生将立即知道他們是否正确回答了問題;
- 如果學生自己無法解決問題,最後的提示會給學生答案;
- 目前, 此功能僅适用于數學問題集。