一家公司有使搜尋引擎能夠更完整地對網際網路進行“編目”的主意,另一家公司則相信它能夠更好地預測搜尋使用者的需求,還有一家公司正在試圖将搜尋與使用者的思維同步。
這些新秀與包括Google在内老牌搜尋廠商都在探索對資訊進行分類的新方法,這可能引發搜尋的新一輪革命。澳洲的搜尋新秀Mooter公司的CEO卡普表示,由于資訊正在爆炸性地增長,如果我們不能理順這些資訊,網際網路的使用将非常困難。
目前的技術給辛西娅這樣的私人投資者帶來了困難。當懷疑某家澳洲公司最近是否有欺詐行為時,她會首先求助于Google,然後會轉到澳洲證券和投資委員會等機構的網站。但專家表示,認為Google的資料非常詳盡的使用者是在自欺欺人。目前的搜尋引擎隻能發現網際網路上不到1%的資訊,主要原因與它們搜尋和對網際網路上資源索引的方式有關。辛西娅說,這是令人沮喪的,就象我們來到圖書館查閱資料,卻隻從書架上拿了一本書一樣。
搜尋領域的分析師沙利文認為解決這些問題是大有希望的,他認為未來的搜尋引擎将在各方面達到最好。但他同時警告說,網際網路上有許多沒有獲得投資或使用者青睐的搜尋創新。
目前,所有的搜尋引擎都不能夠捕獲“無形Web”的大量資源━━被鎖在資料庫中和搜尋引擎的爬蟲找不到的内容,其中包括美國證監會的監管檔案和大多數報紙的完整文檔。有時,通路“隐形”資料庫需要付費,即使資料庫是免費的,網站也可能要求注冊,這就将爬蟲擋在了外面。特别是,動态網頁給爬蟲也造成了障礙。
為了解決這些問題,Dipsie公司正在開發能夠填寫Cars.com網站簡單表格的稿子,并預計将在今年夏季釋出測試版本。其它公司也在開發能夠捕獲音頻和視訊檔案的軟體,這一直困擾着基于文本的爬蟲。StreamSage公司使用語音識别技術轉錄提供的資料,使搜尋引擎能夠從較長的表達中找出相關聯的部分。該公司的總裁默裡表示,哈哈佛大學醫學院和NASA已經使用了這項技術,但設計人員必須提高這一技術的速度,使它能夠被廣泛使用。雅虎公司則采取了一條非技術的、倍受争議的政策:企業通過付費保證其“隐形網頁”被索引。
但索引更多的内容也帶來了另一個問題━━在數以十億計的網頁中找到與搜尋關健字最相關的網頁,是以一些搜尋引擎開發商将目光放在了個性化群組織化的搜尋方面。今年1月份剛成立的Eurekster公司将搜尋與社會網絡結合了起來,它根據使用者的社會網絡中其它成員的搜尋情況來猜測使用者想找到哪方面的内容。是以,如果低眉的社會網絡成員與娛樂界相關,對“casting”搜尋的結果可能是電影網絡,而如果社會網絡成員喜歡周末郊遊,則搜尋結果可能是與釣魚相關的網站。
各大搜尋引擎還在努力對搜尋進行本地化處理。由于已經擁有大量使用者的收費和注冊資訊,在這方面雅虎、AOL比Google有優勢。而SuperPages.com等網站還對資料添加标志,使客戶能夠不僅僅按城市還能夠按逛商店的時間和信用卡号碼進行搜尋。在Google搜尋中添加“星期六”會使使用者得到周六不營業的商店名稱。
标記還有助于Factiva對其9000個新聞源的文檔進行個性化處理,使工程師獲得偏重技術内容的搜尋結果,而營銷部門則能夠獲得更與它們相關的内容。該公司的CEO克萊爾說,人們不願意在查找資料上花費時間,他們願意花時間對資料進行分析。
在微軟公司,研究人員正在探索傳回特定事實而非整個文檔的技術。例如“瑪莉蓮夢露生日”的查詢将傳回“1926年7月1日”這樣的結果,而不會傳回許多與此相關的網站。微軟公司AskMSR項目的資深研究人員埃立克說,借用圖書館借書的過程比喻,搜尋引擎目前的理念仍然是,“讓我給您找一些對您有用的書”,而不是“我來為您查找您所需要的資料”。
通過識别基本主題群組合網站,Mooter公司希望能夠模仿人類大腦對資訊的組織方法,它還試圖根據使用者通路的連結對搜尋結果進行“精益求精”。開發這樣的技術的成本是很高的,一些專家認為最好的工具可能是由Factiva和ChoicePoint等付費服務開發的。
這些新秀與包括Google在内老牌搜尋廠商都在探索對資訊進行分類的新方法,這可能引發搜尋的新一輪革命。澳洲的搜尋新秀Mooter公司的CEO卡普表示,由于資訊正在爆炸性地增長,如果我們不能理順這些資訊,網際網路的使用将非常困難。
目前的技術給辛西娅這樣的私人投資者帶來了困難。當懷疑某家澳洲公司最近是否有欺詐行為時,她會首先求助于Google,然後會轉到澳洲證券和投資委員會等機構的網站。但專家表示,認為Google的資料非常詳盡的使用者是在自欺欺人。目前的搜尋引擎隻能發現網際網路上不到1%的資訊,主要原因與它們搜尋和對網際網路上資源索引的方式有關。辛西娅說,這是令人沮喪的,就象我們來到圖書館查閱資料,卻隻從書架上拿了一本書一樣。
搜尋領域的分析師沙利文認為解決這些問題是大有希望的,他認為未來的搜尋引擎将在各方面達到最好。但他同時警告說,網際網路上有許多沒有獲得投資或使用者青睐的搜尋創新。
目前,所有的搜尋引擎都不能夠捕獲“無形Web”的大量資源━━被鎖在資料庫中和搜尋引擎的爬蟲找不到的内容,其中包括美國證監會的監管檔案和大多數報紙的完整文檔。有時,通路“隐形”資料庫需要付費,即使資料庫是免費的,網站也可能要求注冊,這就将爬蟲擋在了外面。特别是,動态網頁給爬蟲也造成了障礙。
為了解決這些問題,Dipsie公司正在開發能夠填寫Cars.com網站簡單表格的稿子,并預計将在今年夏季釋出測試版本。其它公司也在開發能夠捕獲音頻和視訊檔案的軟體,這一直困擾着基于文本的爬蟲。StreamSage公司使用語音識别技術轉錄提供的資料,使搜尋引擎能夠從較長的表達中找出相關聯的部分。該公司的總裁默裡表示,哈哈佛大學醫學院和NASA已經使用了這項技術,但設計人員必須提高這一技術的速度,使它能夠被廣泛使用。雅虎公司則采取了一條非技術的、倍受争議的政策:企業通過付費保證其“隐形網頁”被索引。
但索引更多的内容也帶來了另一個問題━━在數以十億計的網頁中找到與搜尋關健字最相關的網頁,是以一些搜尋引擎開發商将目光放在了個性化群組織化的搜尋方面。今年1月份剛成立的Eurekster公司将搜尋與社會網絡結合了起來,它根據使用者的社會網絡中其它成員的搜尋情況來猜測使用者想找到哪方面的内容。是以,如果低眉的社會網絡成員與娛樂界相關,對“casting”搜尋的結果可能是電影網絡,而如果社會網絡成員喜歡周末郊遊,則搜尋結果可能是與釣魚相關的網站。
各大搜尋引擎還在努力對搜尋進行本地化處理。由于已經擁有大量使用者的收費和注冊資訊,在這方面雅虎、AOL比Google有優勢。而SuperPages.com等網站還對資料添加标志,使客戶能夠不僅僅按城市還能夠按逛商店的時間和信用卡号碼進行搜尋。在Google搜尋中添加“星期六”會使使用者得到周六不營業的商店名稱。
标記還有助于Factiva對其9000個新聞源的文檔進行個性化處理,使工程師獲得偏重技術内容的搜尋結果,而營銷部門則能夠獲得更與它們相關的内容。該公司的CEO克萊爾說,人們不願意在查找資料上花費時間,他們願意花時間對資料進行分析。
在微軟公司,研究人員正在探索傳回特定事實而非整個文檔的技術。例如“瑪莉蓮夢露生日”的查詢将傳回“1926年7月1日”這樣的結果,而不會傳回許多與此相關的網站。微軟公司AskMSR項目的資深研究人員埃立克說,借用圖書館借書的過程比喻,搜尋引擎目前的理念仍然是,“讓我給您找一些對您有用的書”,而不是“我來為您查找您所需要的資料”。
通過識别基本主題群組合網站,Mooter公司希望能夠模仿人類大腦對資訊的組織方法,它還試圖根據使用者通路的連結對搜尋結果進行“精益求精”。開發這樣的技術的成本是很高的,一些專家認為最好的工具可能是由Factiva和ChoicePoint等付費服務開發的。