close
Warning:
Can't synchronize with repository "(default)" (Unsupported version control system "svn": /usr/lib/python2.7/dist-packages/libsvn/_fs.so: failed to map segment from shared object: Cannot allocate memory). Look in the Trac log for more information.
- Timestamp:
-
Jul 28, 2011, 2:28:31 PM (14 years ago)
- Author:
-
waue
- Comment:
-
--
Legend:
- Unmodified
- Added
- Removed
- Modified
-
|
v16
|
v17
|
|
| 98 | 98 | = 28 = |
| 99 | 99 | |
| 100 | | * 研究 nutch 結論: |
| | 100 | * 研究 nutch 心得: |
| 101 | 101 | * 已經取消 與 tomcat 結合的 war 檔,而使用 solr 的介面作搜尋,但明顯難用很多,solr 服務也需先打開 |
| 102 | 102 | * 爬取結果 也與之前 1.2 版本 不同, 1.3 只有三個資料夾,1.2 以前則有五個資料夾 |
| 103 | 103 | * mso,pdf,ooo 等檔案格式也不在plugin 內看到,猜測已用 tika ([http://tika.apache.org/ content analysis toolkit]) 全部整合取代 |
| 104 | 104 | * 設定前需用 ant 編譯過後才可以使用,許多設定也與之前版本不同 |
| 105 | | |
| | 105 | * 結論 : 繼續使用 nutch 1.2 為 crawlzilla 的延伸 |