Changes between Version 5 and Version 6 of NCTU100407


Ignore:
Timestamp:
Apr 13, 2010, 2:14:52 PM (14 years ago)
Author:
jazz
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • NCTU100407

    v5 v6  
    2222== 作業 ==
    2323
    24  * 使用 Cloudera Hadoop VM 練習完成 inverse index 題目撰寫。
    25  * 因為有多數同學不熟悉 Java 程式語言,因此第一次作業主要以環境安裝、實作練習為主,請各位同學繳交實驗報告一份。
    26  * 繳交時間:四月二十一日(三)
    27  * 繳交方式:以個人為單位,將報告 e-mail 至 jazz@nchc.org.tw
    28  * 加分題:以 Cloudera Hadoop VM 那一份待運算的資料,比較 inverse index 在單機虛擬機器的執行時間與在 21 台實驗環境上的執行時間。
     24 * 題組一:
     25  * 使用 Cloudera Hadoop VM 練習完成 inverse index 題目撰寫。
     26  * 標準題:因為有多數同學不熟悉 Java 程式語言,因此第一次作業主要以環境安裝、實作練習為主,請各位同學繳交實驗報告一份。(80%)
     27  * 加分題:以 Cloudera Hadoop VM 那一份待運算的資料,比較 inverse index 在單機虛擬機器的執行時間與在 21 台實驗環境上的執行時間。(20%)
     28  * 參考報告格式:
     29    * 實驗步驟
     30    * 標準題結果:(1) shakespear 資料集跑 inverse index 執行結果前 20 筆;(2) 從 JobTracker 網頁(http://localhost:50030)查詢執行時間。
     31    * 加分題結果:(1) shakespear 資料集跑 inverse index 執行結果前 20 筆;(2) 從 JobTracker 網頁(http://hadoop.nchc.org.tw:50030)查詢執行時間。
     32  * 繳交時間:四月二十一日(三)
     33  * 繳交方式:以個人為單位,將報告 e-mail 至 jazz@nchc.org.tw
     34 * 題組二:
     35  * 已知 java 語法中,extends 代表繼承自父類別,implement 代表實作某介面(Interface,類似 C++ 多重繼承),請根據 WordCount 範例程式(wordcount.java),繪製 UML 類別圖(如下圖)。(20%)
     36  * 以 hadoop 0.20.2 預設的 conf 目錄為輸入,使用 hadoop fs -put conf input 上傳檔案至 HDFS,請嘗試在 wordcount 範例程式中加入 system.out.println,並回答 map() 函數輸入的 key 內容為何?(20%)
     37  * 乘上題,根據 wordcount 執行過程,當單機執行時,請問同時有幾個 mapper 被執行?並請參考以下圖形,繪製單機運作時 mapper 與 reducer 運作順序。(20%)
     38  * 將 wordcount 範例移植到國網中心 hadoop.nchc.org.tw 上運行,請問同時有幾個 mapper 被執行?並請參考以下圖形,繪製單機運作時 mapper 與 reducer 運作順序。(20%)