中文名: 開發自己的搜索引擎:Lucene+Heritrix
作者: 邱哲
圖書分類: 軟件
資源格式: PDF
版本: 第2版
出版社: 人民郵電出版社
書號: 9787115215291
發行時間: 2010年01月01日
地區: 大陸
語言: 簡體中文
簡介:
內容介紹:開發自己的搜索引擎:Lucene+Heritrix(第2版)》是一本介紹搜索引擎開發的書籍,通過《開發自己的搜索引擎:Lucene+Heritrix(第2版)》,讀者可以獨立構建一個企業級的搜索引擎網站。《開發自己的搜索引擎:Lucene+Heritrix(第2版)》講解了搜索引擎與信息檢索基礎,Lucene入門實例,索引的建立,使用Lucene來搜索,排序,分析器,對Word、Excel和PDF格式文檔的解析,Compass搜索引擎框架,Lucene分布式,爬蟲Heritrix,HTMLParser,DWR等內容。最後綜合這些技術,構建了一個典型的垂直搜索系統,具有很強的商業實用價值。
《開發自己的搜索引擎:Lucene+Heritrix(第2版)》是一本使用Lucene和Heritrix來講解搜索引擎構建的書,通過對API和源代碼的分析,力求使讀者在應用的基礎上,能夠深入其核心,自行擴展和開發相應組件,發揮想象力,開發出更具有創意的搜索引擎產品。
《開發自己的搜索引擎:Lucene+Heritrix(第2版)》適合Java程序員和從事計算機軟件開發的編程人員閱讀,同時也可以作為搜索引擎愛好者的入門書籍。
內容截圖:開發自己的搜索引擎:Lucene+Heritrix.pdf
目錄:
第1章 搜索引擎與信息檢索 1
1.1 搜索引擎的歷史 1
1.1.1 萌芽:Archie、Gopher 1
1.1.2 起步:Robot(網絡機器人)的出現與Spider(網絡爬蟲) 3
1.1.3 發展:Excite、Galaxy、Yahoo等 4
1.1.4 繁榮:Infoseek、AltaVista、Google和Baidu 6
1.2 信息檢索系統的基本知識 9
1.2.1 信息檢索系統 9
1.2.2 信息檢索的過程 11
1.2.3 傳統查找的優點和不足 12
1.2.4 使用索引提高檢索速度 12
1.2.5 倒排索引 13
1.2.6 評價信息檢索系統的標准 14
1.3 Lucene的簡介 14
1.4 小結 15