| Version 23 (modified by waue, 14 years ago) (diff) | 
|---|
七月份工作日誌
 
icas + 課程教材 + crawlzilla
總覽
icas
- 完成 網頁呈現部份
 - 完成 安裝 shell
 - 完成 與網路組ids(nk7admin)整合
 - 完成 整理黑名單部份
 - 完成 攻擊圖 / hour ; lists / period
 - 完成 圖資整理功能
 - 5 bugs fixed (nk7admin資料亂碼、分類錯誤、優先權錯誤、crontab 設定、使用者權限)
 
crawlzilla
- 完成 2 db merge auto complete shell
 - 研究 nutch 1.3
 - 研究 update db
 - 1 bug fix ( opensuse java)
 - 維護 中心內網搜尋
 
hadoop & hbase 進階課程
01
- crawlweb2 已可運作
 - 完成測試 install.sh
 - 與網路組討論 日誌上傳 與 黑名單傳送
 
04
- upload.php 即時運算
 - classify bugfix
 - blacklist 只要最高優先,並略過 classify 欄位
 
05
- blacklist 功能完成
 - priority bugfix
 
06
- 新增 紀錄系統運作功能
 - 圖資整理功能
 
07
- 架設檔案上傳 ftp
 - 更新 install.sh
 - 打包 icas 專案
 
08
- 準備課程教材
 
11 ~ 12
- 上課 html + js
 
13
- icas 與 nk7admin 主機資料傳輸問題
- ftp 上傳空間內只有 看到資料夾卻沒有log
 - 檔頭有亂碼導致 parser 錯誤
 - 惠敏 725
 
 
- 解決資料亂碼問題
資料夾為 ftp:///NK6000/時間/xxx.csv ftp:///NK6000/2011071316/xxx.csv 程式該如何設計,每小時自動抓最新的檔案來parser 而不抓以前已經抓到過的。
 
14
[預計&完成] Crawlzilla : future work plan with fafa
[完成] nk7admin 的檔案parser
- 系統傳來的是 zip 檔
 - zip 檔解壓後檔名有亂碼
 - 檔案內的文字也有亂碼
 
15
[完成] icas 與 nk7admin 的傳輸溝通
[預計] 課程教材整理
18~22
[完成] 課程教材
25
[預計&完成] crawlzilla opensuse bug fix
[研究] nutch crawl db merge error
26
[研究] nutch crawl db merge 2db
27
[研究] nutch1.3
28
- 研究 nutch 心得:
- 已經取消 與 tomcat 結合的 war 檔,而使用 solr 的介面作搜尋,但明顯難用很多,solr 服務也需先打開
 - 爬取結果 也與之前 1.2 版本 不同, 1.3 只有三個資料夾,1.2 以前則有五個資料夾
 - mso,pdf,ooo 等檔案格式也不在plugin 內看到,猜測已用 tika (content analysis toolkit) 全部整合取代
 - 設定前需用 ant 編譯過後才可以使用,許多設定也與之前版本不同
 
 - 結論 : 繼續使用 nutch 1.2 為 crawlzilla 的延伸
 
[debug] crawlzilla : mergecrawl (ok)
29
[debug] icas priority bug (ok)
[研究] ubuntu cron
[debug] icas nk7admin cron error
[維護] 中心內網搜尋引擎資料更新
