* 活動名稱:台灣 Hadoop 生態系工作坊 2013 Q2 *      Taiwan Hadoop Ecosystem Workshop 2013 Q2 * 活動時間:2013/06/02(日) 10:00~15:20 * 活動地點:趨勢科技(台北市大安區敦化南路二段198號) 901 會議室 * 活動名額:開放 60 名座位,依實際報到為準。 * 活動費用:本活動不收取費用,感謝趨勢科技贊助場地。 * 活動議程: || 09:30~10:00 || 報到 || || || 10:00~11:00 || Solr / Lucene in Practice || 趨勢科技 黃彥瑋(Greg Huang,a.k.a. 桂格) || || 11:00~12:00 || HareDB 簡介      || 亦思科技 江孟峰處長 || || 12:00~13:00 || 中場休息 (社群自發性活動,恕暫不提供午餐) || || || 13:00~14:00 || Hadoop整合應用-Crawlzilla || 國網中心 楊順發 || || 14:00~15:00 || Apache CloudStack 簡介  || 騰雲資訊 江尚倫 || || 15:00~15:20 || 快閃展示:BigTop 單機安裝與黑肚龍安裝光碟(半成品) || 國網中心 王耀聰 || == Solr / Lucene in Practice == * Threat Connect (TC) - http://docs.trendmicro.com/all/ent/tc/en-us/tc_olh/abt-tc.html - Sandbox Report - 1.2M reports / 2.4TB / Hadoop - PAFI ( virus scan results ) - 50M reports / 514 GB / HBase - Census (? Index Size : 300GB) - Sandbox VM - Windows (?) - pcap (network packet) / screenshot - 8GB/day, 3000 malware - 存在 HDFS - Similarity Search 相似度搜尋 - 將 log 透過 MR Job 或 Pig 存成 Lucene Index (?),再匯入 Solr (Index Size: 6GB) - 缺點:無法做到遞增索引更新(incremental index update)(也得看是否能區隔遞增的更新資料(incremental data update(?))) - Q1: Census 是自建的系統? - Q2: Sandbox 是 Windows VM? malware 是否會故意避開 VM? - Q3: 用 Pig 產生 Lucene Index - Q4: 蒐集到的 Sandbox 資料是否有遞增的特性? * 如何使用 Solr / Lucene 到 Threat Connect (TC) - Q: 必須自己寫 Web UI (RESTful API)? * 如何使用 Lucene 產生索引? - parsing -> tokenization -> Analysis(optional) - Lucene 只支援純文字模式,所以對二進位的資料格式必須先做 parsing - Lucene 提供 !StandardAnalyzer 來做 !StandardTokenizer(只支援英文)、!StandardFilter、!LowerCaseFilter、!StopFilter - 問題:無法對 Token 作類似 Like 的 SQL 查詢 - 解法:自己寫新的 Tokenizer - 會用到 !PerFieldAnalyzerWrapper - 解法:改完之後,要對應修改 Solr 的 schema.xml 加入 {{{ .... }}} - Q: 中文詞的需求高嘛? - Q: