Crawlzilla 相關文件
Crawlzilla 2.1(單機版)開發進度
|  項目  |  進度  |  備註 
 | 
|  安裝  |  95%(套件檢查未完成)  |  shell script
 | 
|  SH管理  |  5%  |  項目訂定 
 | 
|  管理  |  90%  |  web介面(JQuery mobile?) 
 | 
CrawlJob 流程狀態
- 1. 正常流程為藍色區塊,紅色區塊代表非正常流程
 - 2. Fair Job仍可Re-Index或直接刪除此次爬取之檔案
 
判斷Job是否可以修復
- Step1:檢查crawlDB資料夾是否存在DB Name
 - Step2:檢查solr.xml及solr資料夾是否存在DB Name,均存在則可執行Step3.a,若不存在則必須執行Step3.b,砍掉重練
 - Step3.a:執行reindex程序
 - Step3.b:若存在以下資料,則刪除
        crawlDB/DB_Name
        solr.xml
        solr folder
 
狀況
找不到solrconfig.xml
: java.io.IOException:java.io.IOException: Can't find resource 'solrconfig.xml' in classpath or '/conf/', cwd=/opt/crawlzilla/solr/example 
Please check your logs for more information
網頁啟動Solr
- 系統有順利啟動,查的到pid,但solr網頁無法順利開啟
 - 目前可work,時好時壞,原因不明
 
不穩定之服務2013/04/15
待測試及新增項目
- (v) 多搜尋引擎
 - 加入中文分詞套件庫
 - (測試中,尚未穩定) 本機檔案搜尋
 - 檔案伺服器
 - 檢查相同索引庫名稱,避免衝突
 
V2.1 Bata Release Todo List
- (v)[Web] delete, fix function
 - (v)[Web] change PW
 - (v)tar crawlzilla-v2.1-bata.tar.gz
 
V2.1 Test Note
- 網址重導頁須檢查
 - Download Link速度太慢
 - 第一次爬取失敗,但reindex shell可發揮效用
 - 網頁執行shell有時不能work