wiki:waue/2009/0713

NCHC.Hadoop 運算功能

  • 檢查點
可選擇的功能 運算結果(sec) 算出花費時間 參數個數配置 備註
wordcount v v(19) v
mwc v v(10) v
grep 改正輸出訊息 x X grep (and){ "and,and1,depand"} 有 3個 ,但 wordcount中的 and 只有 1個
nchcgrep v v(32) v 輸出結果的size會比原本的檔多30倍以上(視一行有多少個字而定)
hello v v(19) v 把字數累加進結果檔
sort x 來源檔資料不知為何
  • wordcount 與 mwc (multi-file wordcount)幾乎沒有差別,最明顯的不同是: mwc 用了 MultiFileInputFormat? 這個類別來設定輸入型態,因此目前測試出,只有在以下情況有些微不同...
    • 結果檔內,mwc可以分析的出某些特殊字元,但wordcount卻看成同一個
    • mwc運算速度比較快
Last modified 15 years ago Last modified on Jul 13, 2009, 4:39:35 PM