close
          Warning:
          Can't synchronize with repository "(default)" (Unsupported version control system "svn": libsvn_fs_util-1.so.1: failed to map segment from shared object: Cannot allocate memory). Look in the Trac log for more information.
      
 
    
        
        
      
        
          - 活動名稱:台灣 Hadoop 生態系工作坊 2013 Q2
 -      Taiwan Hadoop Ecosystem Workshop 2013 Q2
 - 活動時間:2013/06/02(日) 10:00~15:20
 - 活動地點:趨勢科技(台北市大安區敦化南路二段198號) 901 會議室
 - 活動名額:開放 60 名座位,依實際報到為準。
 - 活動費用:本活動不收取費用,感謝趨勢科技贊助場地。
 - 活動議程:
 
|  09:30~10:00  |  報到   |   
 | 
|  10:00~11:00  |  Solr / Lucene in Practice  |  趨勢科技 黃彥瑋(Greg Huang,a.k.a. 桂格) 
 | 
|  11:00~12:00  |  HareDB 簡介        |  亦思科技 江孟峰 處長 
 | 
|  12:00~13:00  |  中場休息 (社群自發性活動,恕暫不提供午餐)  |   
 | 
|  13:00~14:00  |  Hadoop整合應用-Crawlzilla  |  國網中心 楊順發 
 | 
|  14:00~15:00  |  Apache CloudStack 簡介   |  騰雲資訊 江尚倫 
 | 
|  15:00~15:20  |  快閃展示:BigTop 單機安裝與黑肚龍安裝光碟(半成品)  |   國網中心 王耀聰 
 | 
Solr / Lucene in Practice
- Threat Connect (TC) - http://docs.trendmicro.com/all/ent/tc/en-us/tc_olh/abt-tc.html 
- Sandbox Report - 1.2M reports / 2.4TB / Hadoop
 - PAFI ( virus scan results ) - 50M reports / 514 GB / HBase
 - Census (? Index Size : 300GB) 
 - Sandbox VM - Windows (?) - pcap (network packet) / screenshot - 8GB/day, 3000 malware - 存在 HDFS
 - 目標:Similarity Search 相似度搜尋
 - 將 log 透過 MR Job 或 Pig 存成 Lucene Index (?),再匯入 Solr (Index Size: 6GB)
 - 缺點:無法做到遞增索引更新(incremental index update)(也得看是否能區隔遞增的更新資料(incremental data update(?)))
 - Q1: Census 是自建的系統? A:Yes
 - Q2: Sandbox 是 Windows VM? malware 是否會故意避開 VM? - A:Yes,是 Windows VM,會有故意避開的作法。所以需要跟駭客攻防。
 - Q3: 用 Pig 產生 Lucene Index - A:自己寫 Storage 的 UDF
 - Q4: 蒐集到的 Sandbox 資料是否有遞增的特性? - 資料有遞增特性,也可以產生多個小的 Index,但不穩定,即便 Solr 支援動態更新,但會遇到效能問題
 
 - 如何使用 Solr / Lucene 到 Threat Connect (TC)
- Q: 必須自己寫 Web UI (RESTful API)?
 
 - 如何使用 Lucene 產生索引?
 
HareDB 簡介
 
          
          
        
        
       
      
    
     
    
      Download in other formats: