Changes between Initial Version and Version 1 of waue/2010/1029


Ignore:
Timestamp:
Oct 29, 2010, 2:45:32 PM (15 years ago)
Author:
waue
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • waue/2010/1029

    v1 v1  
     1{{{
     2#!html
     3<div style="text-align: center; color:#151B8D"><big style="font-weight: bold;"><big><big>
     4Crawlzilla v 0.2.2 異常錯誤處理步驟
     5</big></big></big></div> <div style="text-align: center; color:#7E2217"><big style="font-weight: bold;"><big>
     6nutch 1.0 + hadoop 0.19 + solr 1.3.0
     7</big></big></div>
     8}}}
     9[[PageOutline]]
     10
     11== 前言 ==
     12crawlzilla 0.2.2 所用的 nutch 1.0 有時爬得網站會出現執行完 " crawldb + generate + fetch "的循環之後,剩下來的動作就不做了,hadoop 沒有job ,而go.sh 則 idle永遠顯示 crawling的動作, 無法跑到finish。
     13
     14原因可能有:
     15 * 資料量太大 :總共文字數 超過 10萬筆
     16 * 執行過久 : 總程序跑超過3h
     17
     18沒有跑到的程序有:
     19       
     20{{{
     21#!text
     22linkdb          _JOB_DIR_/linkdb
     23index-lucene    JOB_DIR_/indexes        100.00%
     24dedup 1:        urls by time    100.00%
     25dedup 2:        content by hash 100.00%
     26dedup 3:        delete from index(es)
     27}}}