代碼參考1:http://www.pudn.com/downloads212/sourcecode/unix_linux/detail999273.html
理論參考2:http://zhangyu8374.javaeye.com/blog/86307,http://nything.javaeye.com/blog/411787
假如有file0,file1,file2三個檔案,這些檔案中都儲存了一些文本内容,比如在file0中隻有一個句子,内容為"we are happy"。一般的索引都是記錄在這個檔案中沒有一個單詞的索引号。比如file0的索引可以是(we,0),(are,1),(happy,2)。這樣的鍵值對中key是單詞,value是這個單詞在這個檔案中的位置。但是,反向索引剛好相反,對應于多個檔案,我們要求出某一個單詞在所有這些檔案中出現的位置。我們可以按如下操作進行實驗:
在本地建立檔案夾IndexTest并在裡面建立3個檔案,每個檔案中的内容如下。
* T0 = "it is what it is"
* T1 = "what is it"
* T2 = "it is a banana"
其中T0,T1,T2分别是檔案名,後面為檔案内容。将IndexTest檔案夾上傳到DFS中。然後運作反向索引程式。反向索引程式見代碼示例。
最後輸出結果為:
View Code
本文轉自xwdreamer部落格園部落格,原文連結:http://www.cnblogs.com/xwdreamer/archive/2011/01/07/2297043.html,如需轉載請自行聯系原作者