Changes between Initial Version and Version 1 of NTUOSS160412/HW1


Ignore:
Timestamp:
Apr 11, 2016, 5:41:24 PM (8 years ago)
Author:
jazz
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • NTUOSS160412/HW1

    v1 v1  
     1= 作業一 =
     2
     3 * 題目:請參考 hadoop_labs/lab013 改成逆向索引(Reverse Index)。使 !ReverseIndex 執行之結果為「"關鍵字"\t"檔案名稱(用逗點隔開)"」型態。
     4 * 參考: 以[wiki: 連結之執行方法],忽略句點(\.)與逗點(\,),並且忽略大小寫(case.sensitive=false),
     5 * 參考步驟:[[BR]]Here is the reference steps:
     6{{{
     7#!sh
     8$ hadoop jar WordCount -Dwordcount.case.sensitive=false hw1_input hw1_out -skip pattern.txt
     9$ hadoop fs -cat hw1_out/part-00000
     10}}}
     11 * 參考結果應該為:(路徑不限)[[BR]]The reference result should be as following:(no limitation for the format of "path")
     12{{{
     13and     input2
     14cloud   input1,input2
     15course  input1,input2,input2
     16enjoy   input2
     17i       input1,input2
     18like    input1,input2
     19nctu    input1,input2
     20this    input2
     21we      input2
     22}}}
     23 * 繳交期限:2011年6月13日(一) 上午 11:59
     24 * Due date: 11:59 AM, Monday, June 13th, Year 2011
     25 * 繳交方式:將原始碼與報告以附件方式寄至 jazz _AT_ nchc _DOT_ org _DOT_ tw (1) 程式原始碼一份:以 ${學號}.zip 方式壓縮與命名 (2) 報告一份:以 ${學號} 命名。
     26 * Please e-mail the java source code and report (doc or PDF) to jazz _AT_ nchc _DOT_ org _DOT_ tw
     27 * 提示:[[BR]]Hint:
     28  * 請將 Mapper 輸出、Reducer 輸入輸出的 (Key,Value) 由原本的 (Text, !IntWritable) 改成 (Text, Text)
     29  * Replace (Key,Value) pair from (Text, !IntWritable) to (Text, Text)
     30 * 加分題:(Extra)
     31  * 試將出現次數統計加入結果,亦即參考結果如下:[[BR]]Try to add count of each file in the result, i.e. The reference result should be as following:
     32{{{
     33and     input2(1)
     34cloud   input1(1),input2(1)
     35course  input1(1),input2(2)
     36enjoy   input2(1)
     37i       input1(1),input2(1)
     38like    input1(1),input2(1)
     39nctu    input1(1),input2(1)
     40this    input2(1)
     41we      input2(1)
     42}}}
     43 * 配分比例:
     44  * 標準題原始碼 Source Code:60%
     45  * 報告 Report :20%
     46    * 參考內容入下:Reference Items should be shown in your report
     47    * 封面 Cover : 姓名、學號 ( Your Name and ID )
     48    * 於 hadoop.nchc.org.tw 執行的擷圖(Screenshot of your program running on hadoop.nchc.org.tw)
     49    * 執行結果 The result of your program
     50  * 加分題:20%