| 1 | {{{ |
| 2 | #!html |
| 3 | <div style="text-align: center; color:#151B8D"><big style="font-weight: bold;"><big><big> |
| 4 | crawlzilla 2.0 工作項目 |
| 5 | </big></big></big></div> <div style="text-align: center; color:#7E2217"><big style="font-weight: bold;"><big> |
| 6 | 新架構設計 與 新功能 |
| 7 | </big></big></div> |
| 8 | }}} |
| 9 | [[PageOutline]] |
| 10 | |
| 11 | = 架構改變 = |
| 12 | == 專案發行 == |
| 13 | 原本架構: |
| 14 | |
| 15 | * crawlzilla-package.tar.gz |
| 16 | * carwlzilla-install.tar.gz |
| 17 | |
| 18 | 舊的安裝與更新方法是,下載 crawlzilla-package.tar.gz (140M)下來更新,然而一旦修改此 package 檔,則需要重新上傳,造成伺服器與更新時間太頻繁。 |
| 19 | |
| 20 | 註:sourceforge 目前上傳速度約為 ~ 11k (慢到會哭),下載還要等檔案都 mirror 到全球站台後,檔案才不會有問題。 |
| 21 | |
| 22 | 新架構希望能達到以下目的 |
| 23 | |
| 24 | * 方便更新到 sourceforge.net |
| 25 | * 更新較頻繁的檔可以越小越好 |
| 26 | |
| 27 | 目前架構: |
| 28 | |
| 29 | || nutch-1.2-tomcat-6.0-BaseLite-p0.tar.gz || 原本的 apache-nutch-1.2 與 apache-tomcat-6.0 但刪除 doc/, src/, .job, .jar || 54.0 M || |
| 30 | || nutch-1.2-IKAnalyzer-p0.tar.gz || 放入 中文分詞後更改的 .jar, .job 與 IKAnalyzer.lib || 49.7 M || |
| 31 | || nutch-1.2-WebDefault-p0.tar.gz || 修改過得 nutch 的搜尋網頁介面:tomcat/webapps/default/ || 36.4M || |
| 32 | || carwlzilla-install.tar.gz || 含有 crawlzilla 的 main, war, ; 針對 {conf/ , bin/} 的 nutch-patch , tomcat-patch || 0923版= 9.5M || |
| 33 | |
| 34 | == 網頁 MVC == |
| 35 | 所有 crawlzilla.war 內的 jsp , javabean, servlet 作統籌規劃,確實MVC |
| 36 | |
| 37 | == svn == |
| 38 | crawlzilla web |
| 39 | |
| 40 | = 系統 = |
| 41 | |
| 42 | == 搜尋本機及FTP文件檔案 == |
| 43 | == 抓取動態網頁的可行性 == |
| 44 | == 簡化安裝流程 == |
| 45 | * 分別為安裝及設定 |
| 46 | == 加入資料庫格式 == |
| 47 | 增加系統效能 |
| 48 | * SQL-lite |
| 49 | * json |
| 50 | ... |
| 51 | == 增量爬取 == |
| 52 | * 其實等於 recrawl |
| 53 | == IDB merge == |
| 54 | * mergecrawl |
| 55 | |
| 56 | |
| 57 | |
| 58 | = 網頁 = |
| 59 | |
| 60 | == 網頁管理頁面重新設計 == |
| 61 | |
| 62 | 網頁管理頁面重新設計,不再套用現成版面,並提供客製化CSS樣板 |
| 63 | |
| 64 | == 客製化中文分詞詞庫 == |
| 65 | 客製化中文分詞詞庫採線上即時編輯OR匯入檔案的方式,找詞庫 |
| 66 | |
| 67 | == Nutch 搜尋UI == |
| 68 | * Nutch 搜尋UI替換為crawlzilla自有設計版面 |
| 69 | * 加入該 索引庫統計資訊 |
| 70 | |
| 71 | == autocomplete搜尋關鍵字 == |
| 72 | 於nutch 的搜尋介面上能自動提示與統計 關鍵字 |
| 73 | == 手機版網頁 == |
| 74 | * crawlzilla 手機版 |
| 75 | == Hadoop網頁操作頁面 == |
| 76 | * 嘗試過,但需要 改寫 hadoop 的 jsp ,並導入 jetty ,最後用 ant 打包 |
| 77 | == IDB 匯入/匯出 == |
| 78 | * 再網頁上新增按鈕將 IDB 打包給使用者下載 |
| 79 | * 網頁上新增功能讓使用者 將 IDB 上傳 |
| 80 | = 文件 = |
| 81 | |
| 82 | == 開發者文件(參考Gray提供之樣板) == |
| 83 | == 安裝及使用教學文件 == |
| 84 | |
| 85 | = 推廣 = |
| 86 | |
| 87 | == 尋找新的使用者 == |
| 88 | |
| 89 | = 技術 = |
| 90 | |
| 91 | == HTML5 + CSS3 + JS == |
| 92 | * [http://inspectelement.com/html5portfolio/#portfolio html 5 + css 3 :step by step 教學(英文)] |
| 93 | * [http://lilaccreative.com/ demo ] |
| 94 | * [http://special-christina.blogspot.com/2011/01/35html5.html 35個歐美HTML5網站欣賞] |
| 95 | |
| 96 | == Nutch 功能 == |
| 97 | * SQLite |
| 98 | * hadoop程式碼 |
| 99 | * 非同步網頁 |
| 100 | * Servlet 3.0之非同步處理機制與非同步事件聆聽器 |
| 101 | * Servlet/JSP Gossip: 簡介 AsyncContext |
| 102 | * Servlet的版本對照 |
| 103 | * Nutch + HBase : long term |
| 104 | |