Version 1 (modified by waue, 14 years ago) (diff) |
---|
crawlzilla 2.0 工作項目
新架構設計 與 新功能
架構改變
專案發行
原本架構:
- crawlzilla-package.tar.gz
- carwlzilla-install.tar.gz
舊的安裝與更新方法是,下載 crawlzilla-package.tar.gz (140M)下來更新,然而一旦修改此 package 檔,則需要重新上傳,造成伺服器與更新時間太頻繁。
註:sourceforge 目前上傳速度約為 ~ 11k (慢到會哭),下載還要等檔案都 mirror 到全球站台後,檔案才不會有問題。
新架構希望能達到以下目的
- 方便更新到 sourceforge.net
- 更新較頻繁的檔可以越小越好
目前架構:
nutch-1.2-tomcat-6.0-BaseLite?-p0.tar.gz 原本的 apache-nutch-1.2 與 apache-tomcat-6.0 但刪除 doc/, src/, .job, .jar 54.0 M nutch-1.2-IKAnalyzer-p0.tar.gz 放入 中文分詞後更改的 .jar, .job 與 IKAnalyzer.lib 49.7 M nutch-1.2-WebDefault?-p0.tar.gz 修改過得 nutch 的搜尋網頁介面:tomcat/webapps/default/ 36.4M carwlzilla-install.tar.gz 含有 crawlzilla 的 main, war, ; 針對 {conf/ , bin/} 的 nutch-patch , tomcat-patch 0923版= 9.5M
網頁 MVC
所有 crawlzilla.war 內的 jsp , javabean, servlet 作統籌規劃,確實MVC
svn
crawlzilla web
系統
搜尋本機及FTP文件檔案
抓取動態網頁的可行性
簡化安裝流程
- 分別為安裝及設定
加入資料庫格式
增加系統效能
- SQL-lite
- json
...
增量爬取
- 其實等於 recrawl
IDB merge
- mergecrawl
網頁
網頁管理頁面重新設計
網頁管理頁面重新設計,不再套用現成版面,並提供客製化CSS樣板
客製化中文分詞詞庫
客製化中文分詞詞庫採線上即時編輯OR匯入檔案的方式,找詞庫
Nutch 搜尋UI
- Nutch 搜尋UI替換為crawlzilla自有設計版面
- 加入該 索引庫統計資訊
autocomplete搜尋關鍵字
於nutch 的搜尋介面上能自動提示與統計 關鍵字
手機版網頁
- crawlzilla 手機版
Hadoop網頁操作頁面
- 嘗試過,但需要 改寫 hadoop 的 jsp ,並導入 jetty ,最後用 ant 打包
IDB 匯入/匯出
- 再網頁上新增按鈕將 IDB 打包給使用者下載
- 網頁上新增功能讓使用者 將 IDB 上傳
文件
開發者文件(參考Gray提供之樣板)
安裝及使用教學文件
推廣
尋找新的使用者
技術
HTML5 + CSS3 + JS
Nutch 功能
- SQLite
- hadoop程式碼
- 非同步網頁
- Servlet 3.0之非同步處理機制與非同步事件聆聽器
- Servlet/JSP Gossip: 簡介 AsyncContext?
- Servlet的版本對照
- Nutch + HBase : long term