| | 1 | {{{ |
| | 2 | #!html |
| | 3 | <div style="text-align: center; color:#151B8D"><big style="font-weight: bold;"><big><big> |
| | 4 | Crawlzilla v 0.2.2 異常錯誤處理步驟 |
| | 5 | </big></big></big></div> <div style="text-align: center; color:#7E2217"><big style="font-weight: bold;"><big> |
| | 6 | nutch 1.0 + hadoop 0.19 + solr 1.3.0 |
| | 7 | </big></big></div> |
| | 8 | }}} |
| | 9 | [[PageOutline]] |
| | 10 | |
| | 11 | == 前言 == |
| | 12 | crawlzilla 0.2.2 所用的 nutch 1.0 有時爬得網站會出現執行完 " crawldb + generate + fetch "的循環之後,剩下來的動作就不做了,hadoop 沒有job ,而go.sh 則 idle永遠顯示 crawling的動作, 無法跑到finish。 |
| | 13 | |
| | 14 | 原因可能有: |
| | 15 | * 資料量太大 :總共文字數 超過 10萬筆 |
| | 16 | * 執行過久 : 總程序跑超過3h |
| | 17 | |
| | 18 | 沒有跑到的程序有: |
| | 19 | |
| | 20 | {{{ |
| | 21 | #!text |
| | 22 | linkdb _JOB_DIR_/linkdb |
| | 23 | index-lucene JOB_DIR_/indexes 100.00% |
| | 24 | dedup 1: urls by time 100.00% |
| | 25 | dedup 2: content by hash 100.00% |
| | 26 | dedup 3: delete from index(es) |
| | 27 | }}} |