天天看點

資訊檢索中“相關性”概念的研究

在資訊檢索中,“相關性”是一個關鍵性的概念,但是資訊檢索研究長久以來一直是在缺乏一個準确的相關性定義的情況下進行的。對這一概念人們做了大量研究并提出了理論架構,但這些研究成果無法很好地被加以利用。本文簡要回顧了近五十年來相關×××的概況,對研究現狀進行了讨論,然後就如何将相關×××成果與系統開發相結合提出了初步設想。

1. 引 言

本文中的“相關性”(relevance),是指資訊檢索系統針對使用者的查詢(query)[1]從文檔集中檢出的文檔與查詢之間的一種比對關系[2]。這一說法自然是粗泛得很,因為它并未清楚地指出這種比對究竟是在哪些方面。其實,相關性的定義問題半個世紀以來一直引起許多讨論和争議。如下文所說,西方資訊檢索研究者們已經就這一問題讨論了幾十年,至今未能做出一個明确而且可操作的定義,而在中文資訊檢索研究圈子内,對這個概念的讨論非常少,幾乎見不到集中讨論這一問題的論述。中文資訊檢索研究很大程度上是在西方已有理論體系之内進行的,如果說有什麼特色的話,多半集中在漢語相對于西方語言顯示出的特殊性上,如分詞的必要性、句法分析(parsing)以及索引(indexing)以什麼為基本機關等等,結果像“相關性”應該如何定義這樣的一些基礎理論問題極少引起重視。可以說,在這個問題上中文資訊檢索仍然處于一種直覺和感性的階段。

2. 相關×××的必要性

資訊檢索的核心是在文檔集中為使用者檢出最相關的子文檔集[3],或者按檢出文檔的相關程度進行排序,作為對檢索使用者所提出查詢的回應。但“相關性”的概念一直非常模糊。一方面,人們觀察到特定文檔對特定查詢而言可以有多種“相關”的方式,比如使用者輸入war一詞作為查詢向系統送出,系統傳回的文檔清單中的文檔A講述第二次世界大戰,B談論越南戰争的榮民,都可以說與war“相關”,但我們顯然覺得二者與查詢的相關并不屬于同一層次。另一方面,使用者對檢出文檔是否真正相關的判斷也有諸多差異。仍以war為例,使用者a認為一篇講Hitler的文檔是相關的,但對使用者b來說很可能不是這樣。但是在設計資訊檢索系統的過程中,不可避免地要用到相關性這個概念;具體地說,設計者必須對怎樣才算是“相關”有一個比較明确的想法,然後才能以此為基礎展開具體工作,探索改進系統性能的理論和方法。何況對于學科建設而言,把研究建立在無法确切定義的概念基礎之上,不能不說是理論上的漏洞。在沒有弄清楚什麼是相關性之前就談論怎樣差別相關和不相關文檔,的确令人覺得在邏輯上缺少了一個重要的環節。早期的資訊檢索研究者對“相關性”直覺的依賴或許可以與句法學家對句子可接受性程度的直覺相比:直覺是他們的研究得以進行的基礎。但句法學家的任務正是努力揭示人的語言直覺本身,而相關性直覺卻被作為研究其他問題的參照物。

然而,正如Cuadra和Katter所說,雖然“大多數研究人員在做系統評價時都意識到(相關性)判斷的不一緻性,但傾向于覺得這些不一緻的情況‘讨人厭’,應該盡快地繞過去,而并不認為這種現象應該得到重視。”(Cuadra and Katter, 1967: 12, 14) 資訊檢索研究針對性極強,與應用的銜接又非常緊密;于是在一種急功近利的心态下,研究者們往往不願做近乎“哲學”性的讨論,是以索性越過究竟什麼是“相關”這一看起來很“淺顯”的問題。

這種奇怪的現象近些年來有了很大的改觀。尤其在西方,資訊科學研究者越來越多地意識到有必要給“相關性”下一個明确的或可操作的定義。Schamber et al. (1990: 756)舉出了這種必要性的三個理由(這裡已在文字上作了簡化):

1. 相關性是衡量所有資訊系統性能的名額。新的系統不可避免地要以人做出的相關性判斷為基礎進行評估。

2. 有的資訊檢索系統實際上在工作過程中要用到使用者的相關性判斷,例如相關回報(relevance feedback)機制把使用者當作系統不可分割的一部分。在這類系統中,相關性就已經不再是主要用于評價的一個反應性的(reactive)概念,而是成了一個主動的(active)概念,對系統本身的運作起着關鍵作用。然而如果不搞清楚相關性

使用者意味着什麼,似乎很難想象系統怎樣才能

使用者檢索相關的資訊。

3. 資訊科學家們最終必須把相關性作為一個基本概念為之做出理論和經驗上的定義,這樣該學科才可以接下去讨論其他問題。

實際上從19世紀50年代人們已經就“相關性”各個方面的問題展開了激烈的争論(如1958年國際科學資訊會議,ICSI);60年代,為了弄清相關性判斷受何種因素影響進行了幾次實驗性的研究(Cuadra and Katter, 1967; Rees and Schultz, 1967);70年代,已經開始嘗試建立“相關性”的理論架構,如Saracevic (1970, 1975)努力列舉出相關性的所有可能的層次并做了細緻的歸納;Cooper (1971, 1973)将“相關性”與“用處”(utility)差別開來以澄清概念上的模糊;80年代,試圖從認知的和動态的角度看待相關性,例如以知識表示(knowledge representation)等為理論基礎的觀點認為,使用者的判斷實際上是在文檔資訊與頭腦中已有的概念知識體系之間尋找比對的過程;這種觀點注意的是使用者的内部概念體系與外部世界的互相作用以及内部知識與相關性判斷的關系。(如MacMullin and Taylor, 1984; Taylor, 1986; Belkin et al., 1982; Dervin, 1983)動态的觀點實際上貫穿了相關×××的始終:50年代Vickey (1959a, 1959b)等人就指出相關性判斷總是随着時間變化,而且因使用者不同而不同。這種觀念在80年代被融合于資訊檢索過程中的人機互動(見Ingwersen, 1984)以及人工智能中的問題求解(problem solving)之中(Simon, 1981),不過這一時期對相關性這一概念的理論探讨不多。(Schamber et al., 1990: 767) 90年代的研究基本上延續了認知主義傳統,讨論得更加全面。以Saracevic (1996)為代表的論述更加深入細緻地剖析相關性的概念意義,指出應該在多個層次和角度上研究相關性,包括系統(system)角度、認知(cognitive)角度、情境(situational)角度和動機(motivational)角度等。相關性概念被解剖得非常細緻,人機互動已經成為這方面研究的焦點之一。Mizzaro (1998)提出一個重要的觀點,認為時間也是相關性的一個次元,在人機互動過程中是無法回避的。這一觀點已經得到普遍認同。直到今天,相關性的讨論仍在熱烈進行中(如Cosijn and Ingwersen, 2000)。

但是,雖然對此的讨論已經很多,對相關性的定義看來卻是很難達成一緻。實際上對任何學科來講,要給某一直覺概念下定義都是很困難的,而且無論何種定義都有商榷的餘地。是以,本文并不想給出明确的定義,而是試圖找出某種既保留系統角度相關的可操作性又考慮了使用者因素的具體方法。(關于可操作性以及使用者因素請見下文的讨論。)

3. 相關性判斷的複雜性

與其他涉及到直覺的判斷一樣,人們對“相關性”的判斷也并不總是一緻的,而且同一個人對同一組對象的判斷也可能在多個層次上有所不同。為了資訊檢索的科學性起見,在此不涉及那種哲學解釋學性質的讨論;不過,我們的看法與Schamber et al. (1990)基本一緻:在相關性概念中使用者理應被放在關鍵的地位。檢索系統的輸出歸根結底是要由使用者進行評判的,相關性判斷隻能由使用者做出,系統從本質上講隻能起一個工具性的輔助作用。既然如此,影響相關性判斷的因素就特别值得注意。上文提到,Cuadra和Katter (1967)為調查這些因素做了一系列實驗,結果表明至少有以下幾個因素影響使用者對相關性的判斷:

資訊檢索中“相關性”概念的研究

圖1 影響相關性判斷的因素。個體差異因素指受試(使用者)在做相關性判斷時表現出來的知識水準和技能;刺激材料因素指文檔的一些特性,如文體風格、專業性等;限定因素指實驗者給受試的指導的微小差異;情境因素指時間壓力、不确定情況、回報以及其他的一些“強加的社會動力”(imposed social motivations);量表因素指實驗中受試所使用的相關性程度評價量表,如果設計得過窄則可能無法很好地反映受試的判斷情況;受試需要按照檢索的目的和文檔的用途來判斷相關性,意圖因素就是指做判斷時所依據的“參照系”。

這些因素都對使用者的判斷造成影響。暫且不談外部因素,即使在合作進行檢索系統開發的人員當中,也必然存在判斷不一緻的情況,但系統必須“知道”如何判斷相關性,而這種機制實際上是設計者對使用者判斷方式的模拟。最終的系統隻能将使用者判斷有差異這一事實“忽略”過去。較複雜一些的檢索系統如以向量空間模型 (Vector Space Model) 為基礎的SMART (Salton and McGill, 1983) 等等固然包含了某種“相關回報”(relevance feedback)技術,即以已經得出的檢索結果和使用者的相關性評價為依據,不斷修正查詢表達式(query formulation)和檢索結果集合;但是,系統賴以區分相關與不相關文檔集的算法卻隻考慮文檔自身的特性[4]。已有的檢索技術很多,算法當然各異,但其最終的目标又隻有一個,而這一目标卻是那樣地不易把握。是以,“當相關性看來不能獨立作為一個評價名額時,它就被包含于别的名額,如召回率(recall)或精确率(precision)當中。”(Schamber et al., 1990: 755) 這樣,召回率和精确率就成了評價檢索系統的“客觀公正”的尺度,計算這兩個名額已經成為行業内評測方法的标準。然而這與“相關性”問題無關,因為召回率和精确率并不等同于使用者的判斷依據。研究“相關性”含義的目的,一是為了對檢索技術開發提供參考性的指導,另外在一定程度上也是對“客觀公正”尺度的質疑和重新審視。

4. 定義“相關性”的兩個角度

4.1. 系統角度的相關 (system-oriented relevance)

資訊檢索似乎從一開始就定位為一種單方向的過程,即系統輸出結果,使用者是資訊的接受者。這種了解置使用者于被動的地位;基于這種了解,研究的重心自然落在系統本身。由此,所謂的主題性相關(topical relevance, topicality)便有了“依據”。主題性相關的基本含義是,檢索系統檢出的文檔的主題即核心内容與使用者的資訊需求相比對。相關性被認為是系統的屬性而與使用者基本無關。使用者提出的查詢隻是被拿來與已經确定下來的文檔表示相比較。

資訊檢索的主要工作簡而言之就是提取文檔内容特征項(content identifier)的過程。有兩種主要應用,一是用檢索系統來查詢結構化的資訊,如早期檢索系統所能提供的文檔作者、标題、關鍵詞(需要預先提取)等。對于較為複雜的非結構化文檔則要費許多功夫,現有的多數檢索系統依靠着複雜的數學和統計計算,通過一些函數得出像文檔向量(向量空間模型的典型做法)、相關機率(機率檢索模型)等等資料。這些模型的提出都是建立在這樣一種假設之上,即從文檔中提取的文檔表示(representation)或者相關機率都可以是相對固定的。主題性相關正是在這種固定的資訊與使用者的查詢要求(即查詢表達式的核心意義)之間尋求比對。說得明确一些,就是認為所有文檔都有一些客觀存在的特征資訊在那裡等待提取。

系統角度的相關一般有兩種比較方式。其一是在文檔本身固有的特征資訊(feature)如詞頻等等與使用者送出的查詢表達式中固有的特征資訊之間進行比較。典型做法是在文檔集中尋找出現了查詢表達式中的索引項(item)的文檔;其二是在從文檔中抽取的“主題”(topic)與使用者查詢表達式中展現的“主題”之間做比較,即首先計算文檔中各索引項的權值,再按權值大小進行排序,以此為依據确定文檔的主題詞。

資訊檢索中“相關性”概念的研究

圖2 系統角度相關兩種典型的比較方式。在(a)中,文檔的形式化表示一般被表示為索引項集,查詢表達式與文檔的這種形式化表示相比較。(b)中文檔中的主題詞一般是從索引項集中提取的權值較大的索引項子集;查詢關鍵詞是從查詢表達式中進一步提取出來的。

這種做法比較簡單明了,易于操作而且可以直接觀察,是以一直是資訊檢索研究者們樂于接受的。實際上這是因為設計檢索技術時通常必須假設存在着某種“客觀”的相關性标準,否則資訊檢索研究無法進行下去。資訊檢索内在的不确定性與相關性判斷的不确定性,對于要求精确的計算機科學來說确實不利;在此情況下,假設存在客觀标準是一個不得已的辦法,另外通過機率計算也可以得到較好的效果。問題在于,以這些方式提取的資訊究竟能否“準确地”反映文檔的内容主題和使用者的判斷,反映的效果如何。實際上并不存在确定性的主題:文檔的内容無法用這些确定性的表示(representation)标記出來。(Schamber et al., 1990: 759)這樣就有一個問題:主題性相關如何檢驗?一般的看法是,使用者必須覺得檢出文檔是“關于”其所查詢的那個資訊的,是以主題性相關從使用者角度來講就是“關于性”(aboutness)[5]。是以系統角度相關仍然要與使用者挂起鈎來;脫離使用者談相關是不可能的。

4.2. 使用者角度的相關 (user-oriented relevance)

系統角度相關不能被作為一個充分的定義,因為它過于偏重檢索活動的一個方面而忽視了另一個方面。随着檢索系統日益廣泛的應用,特别是由于近幾年來網際網路絡的急劇膨脹,研究者投向使用者的目光越來越多了。人們開始更多地思索人機互動過程中人的因素。其實如前所述,相關性判斷的不确定性向來是一個衆所周知的事實。這種不确定性是由多種原因造成的,但基本上集中于使用者的主觀因素上。資訊檢索研究者的觀點從雖然簡單但引起很多争議的系統角度相關,轉向了強調使用者的認知過程與資訊需求的使用者角度相關。後者在幾十年的研究曆史中都為幾乎所有研究者所接受,雖然對相關性的了解和分類方法各不相同。

Saracevic (1970)等人使用概念相關(conceptual relatedness)一語,強調相關比對應當是文檔所含資訊與使用者需求資訊兩者的概念之間的比對。這種定義相對地側重于抽象的意義:要取得這種相關性,從文檔中提取的特征資訊應該能準确表示文檔的核心意義,同時系統還要完全“領會”使用者送出的查詢所表達的真正需求。這無疑是一個理想的狀态:系統隻有在真正“了解”來自文檔和使用者查詢兩方面資訊内容的前提下才談得上“概念”上的比較。但是這種定義仍然起不了什麼作用,因為意義既然無法完全把握,究竟怎樣才算“了解”并不清楚。

從使用者角度讨論相關大體上就是觀察使用者對檢索結果的反應,是系統輸出向使用者需求的投射。相關性被認為是使用者方面的屬性。研究者們用了許多意義相近的詞來描述這種反應,實際上是描述相關性概念内涵的各個不同側面。散見于文獻中的有關術語包括:

主題性相關(topical relevance / topicality) 指文檔内容的核心意義與查詢的主題相一緻
動機性相關(motivational relevance) 指文檔符合使用者進行查詢的目的(intent)
情緒性相關(affective relevance) 指使用者對作為傳回結果的文檔的主觀評價和态度
有關(pertinence) 多指在某一具體查詢(session)過程中結果與使用者的資訊需求之間的關系,或稱認知相關(cognitive relevance)
比對(matching) 一般泛指結果與要求之間存在的某種一緻性
提供資訊(informativeness)
滿足(satisfaction)
适合(appropriateness)
有用(usefulness, utility)
對應(correspondence)
……

表1 表示“相關性”的術語。左列是術語;右列是研究者使用這些術語時所用的大緻意義。

可以看出,很多用語都表示大緻相近的意思,隻不過是換了個詞。不論是滿足(satisfaction)還是對應(correspondence),都指系統輸出相對于使用者需求的作用;提供資訊(informativeness)和有用(usefulness)也都是說系統輸出對使用者有所幫助。實際已經很難再進一步解釋這些詞之間的細微差别。像其他學科一樣,用近義詞語描述相同概念以區分不同内涵這一常見做法,往往會導緻學科内部概念的混亂而很少起到好的作用。這種混亂一方面表明學術思想非常活躍、學科朝氣蓬勃;但同時也暗示着該學科在某種程度上的不夠成熟。如Schamber et al.所說,對相關性的定義太多,“總體來講,與其說有什麼幫助還不如說更加令人迷惑不解。”(1990: 759) Saracevic (1996) 以相關性的屬性(attributes)和相關性的表現(manifestation)這兩個術語來整理這種局面,努力建立相關性的理論架構。屬性大緻指相關性概念的定義中所蘊含的意義的各個方面;表現指相關性的外在屬性。他歸納了這樣幾個屬性:

w 關系 (relation):相關性概念的核心。

w 意圖 (intention):目标、任務(role)、期望(即動機,motivation)等。

w 背景(context):即檢索任務本身,涉及檢索的意圖。相關性判斷必須以此為依據。

w 推論 (inference):對關系的有效性的評價,亦即使用者根據其對文檔的相關性判斷進一步做出的關于文檔的用途、如何有效利用等的判斷。

w 互動 (interaction):使用者對文檔的判斷結論随着其認識發生變化的動态過程。

另外他區分了相關性的幾個不同的表現,每種表現描述一種不同的關系:

w 系統(system)/算法(algorithmic)相關

w 主題性(topical)相關/topicality

w 認知(cognitive)相關/有關(pertinence)

w 情境(situational)相關/用途(utility)

w 動機(motivational)/情緒(affective)相關

(Saracevic, 1996,轉引自Cosijn and Ingwersen, 2000)

算法相關是系統以邏輯或統計原則對文檔及查詢進行相似性比較得出的,是以屬系統角度相關。在現有的各系統中,這種比較(計算)算法的基礎假設是:依據兩篇文檔中索引項的(統計)分布情況可以區分不同的文檔。算法相關比較的是文檔和查詢各自的特征(features)。主題性相關是在文檔和查詢各自的主題 (subject/topic)之間的比較結果。基礎假設是:可以由一個認知媒介(cognitive agent)對查詢和資訊客體(即文檔)雙方進行解釋,從各自當中提取主題。(Cosijn and Ingwersen, 2000: 539)算法相關與主題性相關都是從系統角度定義的,但其差別在于,前者對文檔和查詢進行近似直接的比較;後者需要預先從二者中抽取主題,然後對主題進行比較。主題性相關判斷的标準是文檔是不是“關于”所提出的資訊需求。

認知相關基本思想是資訊客體應當“符合”使用者的認知需求。文檔是否具有這種相關性,很大程度上取決于使用者的主觀判斷,使用者在判斷時的知識狀态(state of knowledge)等主觀因素往往影響着判斷結果。從系統角度來講,如何取得相對于使用者認知狀态的最佳模拟(simulation)無疑是很關鍵的,但前提是要更好地“了解”使用者的查詢表達式所展現的真正的資訊需求。那麼,使用者表述資訊需求的有效性就成為了另一個關鍵。

對情境相關來說,判斷的目的是相關性判斷的依據。在很多情況下這種判斷決定了判斷者對被判斷資訊的取舍(是否适合某一目的):首先要了解檢索目的,即本次任務(session)要求被檢出的資訊具有哪些必需的特征,然後判斷這些資訊是否符合這種要求(對本次檢索來說是否“有用”)。是以這次檢索任務就是判斷的背景(情境),這種背景因素就是判斷過程中的關鍵。

動機相關中檢索目的(意圖)的作用非常明顯:相關性判斷的直接意義是被檢索出的文檔是否“滿足需求”;判斷的結果往往以是否“成功”、“滿足需要”、“完成檢索任務”為标準。正因特定的目的性很強,是以動機相關展現了使用者判斷的主觀(情緒)性質。

相關性具有“多元”特征,這已經是資訊檢索研究者們的共識。但并非所有的影響因素都在相關性判斷過程中起直接作用。Cuadra和Katter的因素清單(見圖1)與Saracevic的分類體系中有許多概念原本不應放在同一層次上,這裡我們來做一個重新分類:

資訊檢索中“相關性”概念的研究

圖3 影響相關性判斷的各因素。黑體字部分為原分類體系中的用語。

文檔是相關性判斷的對象,是對使用者的直接刺激材料;背景對判斷過程中所有因素都發生作用,與其說是判斷的影響因素還不如說是其論域(universe of discourse);檢索意圖是判斷的背景依據,情境(在這裡指的是心理壓力、不确定情況、社會制約因素等)與意圖對任何判斷行為都是制約因素;而另外兩個制約因素——實驗者和量表的影響基本上是屬于“幹擾”因素。特定的判斷行為不涉及個體差異。

相關性判斷雖然涉及到系統和使用者兩個方面,但隻能由使用者對系統輸出進行評價,而這種使用者評價才是系統性能的最終評判者。在回顧了三十多年相關×××文獻之後,Schamber et al.非常明确地提出了使用者中心論的主張:

我們所主張的這種動态的、情境的觀點把使用者(暫且不論系統)看作是相關性各個方面的核心和積極的決定因素(active determinant)。(1990: 755)

使用者因素在相關性判斷中起非常關鍵的作用。雖然這種判斷不完全由使用者的主觀意志決定,而是同時受到一些外部因素的影響;但是,“相關”實際上是使用者對文檔資訊源的一種解釋。對使用者來說,文檔是來自外部的材料刺激,那麼相關性判斷就可以看作是從文檔(外部刺激材料)在使用者内部因素中的反映(見圖4):

資訊檢索中“相關性”概念的研究

圖4 使用者角度相關的基本模式。

這正是使用者角度相關性觀點的基本思想。但這并不起什麼實質性的作用:系統仍然不知道如何計算相關度。

近來Mizzaro (1998)提出了一個比較成功的形式化的理論架構,試圖将以往的主要研究成果作一總結。在這一架構中,相關性有四個主要次元:

1) 資訊源 (information resources):使用者所需要的對象(entity)可以分析為三個層次,即

文檔

(document),是檢索系統檢出的結果的實體(physical entity);文檔的

代表

(surrogate),指文檔的某種表示 (representation),包括主題、關鍵詞集、作者姓名等結構化的資訊;

資訊

(information),即使用者在閱讀已經被檢出的文檔時所獲得的非實體性的東西。

2) 資訊需求的表示 (representation of the user’s problem):分四個層次,分别為

真正的資訊需求

(RIN, Real Information Need),

感覺到的資訊需求

(PIN, Perceived Information Need),

請求

(Request),

查詢表達

(Query)。這四者之間呈現一個序列:

RIN à PIN à Request à Query

這就是說,使用者不一定意識 (PIN) 到自己實際上想查詢什麼資訊(RIN),他所表達出來的需求即請求 (Request)也可能與真正的需求甚或感覺到的需求有一段距離;由于查詢表達式 (Query)隻是這種表達出來的需求的形式化表示,當然與前三者都可能存在差異。

3) 時間 (time):特定文檔或其代表相對于某一特定的查詢來說,有可能在某個時刻是相關的,但在另外的某一時刻又可能是不相關的。

這一次元非常典型地展現了相關性(判斷)的動态性。由于使用者擁有的知識以及其RIN都會随着時間推移而變化,是以他對文檔相關性的判斷必然不是恒定不變的。時間因素的這種影響已經為研究者們所認同。這就産生了一個棘手的問題,即相關性的判别看來已經沒有一個固定的标準可言。

4) 構件 (components):這一次元與前三個相比複雜得多。首先,資訊源和資訊需求表示包括了主題 (topic)、任務 (task) 和情境 (context)。設這三者構成一個集合,那麼構件則是這一集合的幂集減去空子集,即

Components={{topic}, {task}, {context}, {topic, task}, {topic, context}, {task, context}, {topic, task, context}}

換句話說,構件指的是不同檢索行為而在主題、任務和情境方面呈現出來的差異。

這樣看來,諸多的研究可以說已經把相關性的各個方面分析得淋漓盡緻,但是已經将相關性置于一個無法準确測度的境地,似乎是資訊檢索研究者對相關性判斷的不确定性的一種無奈的感歎。

5. 讨論與假設

站在從第三方的角度看待系統角度/使用者角度相關性定義之争,可以看出這兩種态度都是有理由的。19世紀40年代資訊檢索才被确立為一門獨立的學科,在這一時期計算機應用和電子文本的大量出現成為傳統的資料檢索(data retrieval)向現代意義的資訊檢索(information retrieval)過渡的主要推動力。由于資訊檢索以自然語言文本為主要處理對象,使用者的查詢與檢出文檔之間由比對(matching)關系變為相關關系;資料檢索的精确性被資訊檢索的不确定性所代替。資訊檢索的迫切需要促使人們直接開始研究如何在使用者查詢與文檔之間尋求“比對”,這無疑是資料檢索方法和思維方式的延續。但這種做法很快便顯出了不足:使用者對“比對”與否的判斷不再是簡單的“是”或“否”這種二值性對立,而是一個漸變的連續統(continuum)。而這種現象正是由使用者判斷的主觀性決定的。

在對相關性沒有一個統一認識的情況下,要使資訊檢索技術研究能進行下去,隻能假設存在某種判斷相關性的客觀标準。這種研究建立在對“相關性”的直覺定義基礎上:可以從文檔中提取主題詞,而這些主題詞可以成為文檔核心内容的近似表示。系統認為如果使用者的查詢與這些主題詞比對,那麼文檔就是“相關”的。

從使用者角度研究相關性是資訊檢索學科理論中必不可少的一個環節。系統角度相關強調的是技術實作問題,但其關于相關性的假設應當符合使用者的判斷。從前面的評述可以看到,關于使用者角度相關的各種讨論,得出的結論總是“相關性概念是多元的”,并不具有可操作性。這種理論探讨似乎無法與系統開發有效結合起來。研究者們早就意識到使用者在相關性判斷中的作用,但雖然從使用者角度讨論相關性定義的文獻多如牛毛,卻從未有一個确定性的結論;使用者的主觀因素的确難以捉摸。這樣就形成了一個尴尬的局面:一面是相關×××如火如荼,另一面是檢索系統研究隻能對此作無奈的觀望,結果系統判斷相關性仍然要通過詞頻計算等機械手段而無法利用相關×××成果。

相關回報技術很早就應用于資訊檢索,從中可以看出研究者們感覺有必要使使用者的判斷參與檢索過程。研究者顯然是假設使用者的查詢要求是明确的、始終如一的。然而如前面所說,使用者的主觀因素在判斷過程中起很大作用,是以與系統設計者的期望有一定距離。相關回報式查詢可能至少有這樣幾種情況:(1)使用者的後續查詢(subsequent queries)可以對其不夠具體的初始查詢(initial query)進行細化、具體化。這種情況是相關回報技術所期望發生的。後續查詢的作用大緻相當于過濾器,将已經檢出的文檔集不斷縮小,最終得到相關度最大的文檔集。(2)使用者的查詢目的并不十分明确,後續查詢與初始查詢相比發生了某種細微的變化。後續查詢所表達的概念不是初始查詢所表達概念的子集。這不是一種理想情況,因為對後續查詢的檢索響應不應當在已經檢出的文檔集内進行。由于存在後一種情況,我們認為後續查詢與初始查詢一般應當看作不同的查詢。結果,盡管相關回報技術在資訊檢索系統中已經成為一個重要部分,但不應當誇大其有效性。

從系統角度定義的相關性(即主題性相關)最突出的優點,就是簡明和可操作性;而至少目前的系統還無法把握人的主觀感覺。這樣看來,采取主題性相關的态度就是唯一可行的做法(也許是權宜之計)。然而我們并不覺得詞頻統計是唯一的解決辦法。通過計算詞頻來提取文檔主題詞,似乎并不完全符合人的直覺判斷,盡管在許多情況下這種方法證明是有效的。另一方面,使用者角度相關由于太多的不确定性而被批評為“無法測度”:

唯一能夠檢驗或測度的相關性是查詢請求與文檔集中的詞項對應。……如果我們允許個人推論和個人了解介入相關性判斷,那麼從某種角度來看,任何文本對任何請求都是相關的。(Fairthorne, 1963: 111-112,引自Schamber et al., 1990)

是以,改進系統角度相關度計算方法似乎比較可以接受。基于此種看法,我們在這裡做這樣一個設想:如果主題詞提取算法能展現使用者的相關性判斷直覺,那麼使用者的相關性判斷就可以被描述,而檢索系統的輸出就可能更加令人滿意。

資訊檢索中“相關性”概念的研究

圖 5. 改進的系統角度相關計算方法。

由前面的介紹和讨論可以看出,對使用者角度相關性的探讨大都是形而上學性質;不論是“屬性”還是“表現”(見4.2小節),講的都是相關性概念自身的特性,而沒有談及使用者究竟是如何判斷相關性的。使用者判斷當然可能是以多種直覺為依據,我們認為,相關×××的任務之一應當是描述使用者的直覺,而不是停留在對概念本身的玩味上。比如我們的直覺之一是:文檔中重要的資訊往往比較集中地出現在某些句法位置(如主語、動詞補足語、介詞補足語等)上,這些資訊在許多情況下接近于文檔的主題詞。換句話說,話題(核心内容)似乎被有規律地安排在某些位置上(這種安排一般是無意識的)。實際上,對這種直覺的可靠性我們已經做了基于語料庫的檢驗:在将一定規模的語料中的名物性短語(nominal phrase)進行句法位置标注之後,我們以在方法論上與位置标注無關的一種權值計算公式(這種公式在資訊檢索界被大量采用,用以計算索引項對文檔的貢獻大小)為依據,用計算機程式得出這些短語的權值;對這些資料的統計結果表明,二者之間的相關性具有顯著意義。既然這種直覺是事實,那麼系統就可以通過賦予這些位置上的資訊以較高的權值來提取主題詞[6],這樣就避免了機械的詞頻統計方法,在保留系統角度相關的明确和可操作的優點的同時,将使用者的直覺融入了相關性算法。這正是将使用者主觀性與系統算法的客觀性相結合的一條可能的途徑。

文獻目錄

Belkin, N. J., R. N. Oddy and H. M. Brooks. 1982. “ASK for information retrieval.” Journal of Documentation 38(2): 61-71 and 38(3): 145-164.

Cooper, W. S. 1971. “A definition of relevance for information retrieval.” Information Storage and Retrieval 7(1): 19-37.

Cooper, W. S. 1973. “On selecting a measure of retrieval effectiveness, part 1. The subjective philosophy of evaluation.” Journal of the American Society for Information Science 24(2): 87-100.

Cosijn, E. and P. Ingwersen. 2000. “Dimensions of relevance”. Information Processing and Management 36: 533-550.

Cuadra, C. A. and R. V. Katter. 1967. Experimental Studies of Relevance Judgments: Final Report. I: Project Summary (NSF Report No. TM-3520/001/00). Santa Monica, CA: System Development Corporation.

Dervin, B. 1983. An Overview of Sense-Making Research: Concepts, Methods and Results to Date. Paper presented at the International Communication Association Annual Meeting, Dallas, TX.

Fairthorne, R. A. 1963. “Implications of test procedures.” In A. Kent ed. Information Retrieval in Action. Cleveland: Case Western Reserve University Press.

MacMullin, S. E., and R. S. Taylor. 1984. “Problem dimensions and information traits.” The Information Society 3(1): 91-111.

Mizzaro, S. 1998. “How many relevances in information retrieval?” Interacting with Computers 10:305-322.

Rees, A. M., and D. G. Schultz. 1967. A Field Experimental Approach to the Study of Relevance Assessments in Relation to Document Searching. I: Final Report (NSF Contract No. C-423). Cleveland: Case Western Reserve University.

Salton, G. and M. J. McGill. 1983. Introduction to Modern Information Retrieval. McGraw-Hill.

Saracevic, T. 1970. “The concept of ‘relevance’ in information science; a historical review”. In T. Saracevic ed. Introduction to Information Science. New York: R. R. Bowker, pp.111-151.

Saracevic, T. 1975. “Relevance: a review of and a framework for the thinking on the notion in information science”. Journal of American Society for Information Science 26(6): 321-343.

Saracevic, T. 1996. “Relevance reconsidered ’96”. In P. Ingwersen and N. O. Pors. Information Science: Integration in Perspective. Copenhagen: Royal School of Library and Information Science.

Schamber, L., M. B. Eisenberg and M. S. Nilan. 1990. "A re-examination of relevance: toward a dynamic, situational definition”. Information Processing & Management 26(6): 755-776.

Taylor, R. S. 1986. Value-Added Processes in Information Systems. Norwood, NJ: Ablex.

Vickey, B. C. 1959a. “The structure of information retrieval systems.” Proceedings of the International Conference on Scientific Information, 1958, 2, 1275-1289.

Vickey, B. C. 1959b. “Subject analysis for information retrieval.” Proceedings of the International Conference on Scientific Information 1958 2, 855-865.

[1] “查詢”(query)在本文中用作專門術語,指使用者向系統送出的用于表達資訊需求的表達式(expression)。在易引起誤解的地方我們将用“查詢表達式”這一術語。

[2] 現代資訊檢索以自然語言文本為對象,從嚴格意義上講,文檔與查詢之間不再是資料庫檢索中的那種簡單的比對關系。但“比對”這一術語一直在使用,本文也接受這種說法。

[3] 對現代資訊檢索技術而言,文檔作者、标題等結構化特性較強的資訊較易抽取,在本文不讨論以這些内容為對象的檢索。

[4] 這些檢索模型靠計算詞頻、文檔頻數等得出文檔中檢索項的權重,而文檔本身的“相關”程度等等是以此為基礎的。

[5]這個詞極難翻譯,這裡隻是一個臨時的譯法,有待商榷。

[6]要将這種判斷方法設計到實用系統中,還要以具備一個有效的句法分析器為前提。

繼續閱讀