資訊組織- the Organization of Information
以下大多知識參考于《資訊組織》---常春
資訊組織的定義
資訊組織是指通過對雜亂的資訊和資料進行分析,利用相應的技術和方法将其組織成有序的系統的方法。
資訊組織在生活中的應用随處可見,例如圖書館圖書的排列,班級學生按成績的排列等。
資訊組織的原理和方法
語言學原理
自然語言與檢索語言特征
自然語言:日常使用的語言或口語。
人工語言:在自然語言的基礎上,對自然語言進行一定地規範化。例如展現在書本上的知識為人工語言。
資訊檢索語言:具有規範性、唯一性的人工語言,是計算機可了解的語言。
普通使用者一般查詢使用的是自然語言或者不完全規範化的書面語言,此時用專業術語更能精準查詢,如何獲得對應的專業術語?可以從對應的專業術語表或叙詞表、主題詞表。這樣的查詢可以看作以系統為中心的資訊檢索,盡量使用計算機能識别的語言;當然現在大多數資訊檢索網站都以使用者為中心,直接輸入問題甚至連續輸入相關問題也能得到回答。
概念的先組與後組:例如“黑色” “毛衣”2個詞經過後組可以表達“黑色毛衣”的含義,反之,“黑色毛衣”也能夠作為先組詞切分為“黑色” “毛衣”2個詞。
計算機語言與檢索語言特征
計算語言學的應用:
1.共現或同現:指在一篇文獻中,某兩個單詞或某兩個術語總是一同出現,那麼它們之間就可能存在關系。如在一篇文獻中“知識” “共享”總是同時出現,那麼它們之間可能存在相關關系或其它關系。
2.詞頻的應用:利用計算機的切詞、分詞軟體,去掉文獻中的停用詞、語氣詞(網絡上可查到停用詞表);去掉一些通用含義的高頻詞,去掉一些低頻詞,抽取重要的科學術語或知識概念。
3.抽詞标引:一篇文章經過計算機切詞、詞頻統計,将文章中的高頻詞作為标引詞(關鍵詞)對這篇文獻進行标引,實作文獻的智能準确檢索。
4.自動分類與自動文摘:自動文摘目前難以達到人工文摘的水準。
檢索語言文法句法特征
自然語言存在一詞多義及多詞一義現象(如蘋果可指水果或蘋果公司,洋芋、馬鈴薯是指同一種植物)隻适用于人工之間的交流。這時便需要具有唯一性和确定性的檢索語言來幫助。
如何形成檢索語言,需要對詞量、詞類、詞型、詞義進行控制,句法控制以及詞頻控制。例如對文獻進行詞頻統計,一般高詞頻和詞頻為1的詞不做處理,高詞頻的詞一般為“的”“了”等沒有意義的詞,詞頻在20-50次之間的詞一般比較常用。
系統論原理
系統論認為任何系統都是有機的整體,它不是各個部分的機械組合或簡單相加,系統的整體功能是各要素在孤立狀态下無法實作的。
資訊檢索系統評價名額:Lancaster的評價名額應用比較廣泛,如其中的查全率、查準率。
查全率:搜尋得出的相關文獻數量占系統所有相關文獻數量的比率
查準率:搜尋得出的相關文獻數量占搜尋得出文獻數量的比率
知識分類原理
知識分類就是對資訊的組織一種方式。人類所積累的知識可以按不同領域分類,例如我國将知識分為自然科學、社會科學、哲學和綜合性圖書等,然後再各類下進行更加細緻的分類。
概念邏輯原理
資訊組織方法
分類組織法