{{{
#!html
<div style="text-align: center; color:#151B8D"><big style="font-weight: bold;"><big><big>
nutch 1.2 survey
</big></big></big></div> <div style="text-align: center; color:#7E2217"><big style="font-weight: bold;"><big>
並加測 protocal : ftp, file , 功能： pdf , url-filter
</big></big></div>
}}}
[[PageOutline]]



 = File 測試 = 
 搜尋時，不會自動列出該目錄的內容並從而深入進去，需要檔案一個一個指定於url.txt中，並且file 無法跟 http 一起使用

 = FTP 測試 = 
 ok , 深度也沒問題，但是某些 pdf , word 無法解析，但 html , txt 都 ok 

 = 過濾器 t =
 == conf/crawl-urlfilter.txt ==
 * 修改此一檔案即可
{{{
#!text
+^http://([a-z0-9]*\.)*nchc.org.tw
}}}

 || +  || 為必要，- 略過 || 
 || ^http://  || 開頭為 http:// || 
 || [a-z0-9] || a-z 26個英文字母，與 0-9 十個數字 || 
 || [string]* || 重複 string  || 
 || \. || . || 
 || ([a-z0-9]*\.)* || aa.bb.皆可 || 
 || +^http://([a-z0-9]*\.)*nchc.org.tw || (任何英數皆可的).nchc.org.tw，因此此網域不支援 -_大寫英文等網域名稱 || 


 * 以下沒有過濾效果
{{{
#!text
# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*.nchc.org.tw/
+^http://([a-z0-9]*\.)*.narl.org.tw/

# skip everything else
#-.
# accept everything
+.*
}}}

 = 解析器 tika =
[http://www.ibm.com/developerworks/cn/opensource/tutorials/os-apache-tika/index.html 用 Apache Tika 理解信息内容]
 * [http://www.oschina.net/p/tika 内容抽取工具集合 Apache Tika]
nutch 1.2 所附得 pdf 解析器為 pdfbox 0.7.3 ，現在最新的版本為 1.3.1 ，也許置換成最新的就可以解決部份中文不支援的問題，但是更換需要改寫程式碼

 * [http://blog.ring.idv.tw/comment.ser?i=316 當大象遇上PDFBox...]
 * [http://blog.ring.idv.tw/comment.ser?i=309 PDFBox - 擷取PDF檔案中的純文字]
 * [http://blog.csdn.net/allenshi_szl/archive/2009/12/06/4953302.aspx lucene pdf+doc+ppt+xls+txt+多层文件]
 * [http://blog.csdn.net/allenshi_szl/archive/2009/12/13/4951564.aspx 使用PDFBox处理PDF文档]
 * [http://blog.csdn.net/fuyangchang/archive/2007/06/11/1647774.aspx JAVA读取WORD,EXCEL,POWERPOINT,PDF文件的方法]
 * [http://blog.csdn.net/weijie_search/archive/2008/07/16/2662189.aspx 用Java读取pdf中的数据]

 = 重新編譯 parse-pdf =
 * 進入 $nutch/src/plugin/parse-pdf/ 
   * 清空 lib 內的 jar ，將[http://pdfbox.apache.org/download.html#pdfbox pdfbox]最新版下載下來（選擇 pdfbox-app-xxx.jar) 下載到 lib ，
   * plugin.xml 改成lib 有的檔名pdfbox-app-xxx.jar
   * 用  ant 編譯一下，出錯則是 org.pdfbox 找不到 --> 改成 org.apache.pdfbox 
 * 到 $nutch/src/plugin/ 執行 ant ，如果編譯完成，新的資料匯出現在 $nutch/build/plugin/parse-pdf/ 的 parse-pdf.jar (此檔就是新編譯出來的)
 * 將新得取代掉舊得 parse-pdf.jar 再爬看看結果如何