{{{
#!html
<div style="text-align: center;"><big
 style="font-weight: bold;"><big><big>雲端運算核心技術 Hadoop 與 MapReduce 上機練習</big></big></big></div>
}}}
[[PageOutline]]

 * 深入了解 Hadoop 的參考資料：http://classcloud.org/media 歷史課程錄影(兩天)
 * 作業討論區：http://forum.hadoop.tw
 * 申請 21 台 hadoop 實驗環境帳號：http://hadoop.nchc.org.tw

== '''2010-04-07 (三)''' == 

 || 上午時段 || 課程內容 || 投影片 || 補充資料 ||
 || 13:30~14:00 || [raw-attachment:wiki:Hinet100402:02.HadoopOverview.pdf Hadoop簡介] || [raw-attachment:wiki:Hinet100402:02.HadoopOverview.pdf Part-01] || ||
 || 14:10~14:30 || [raw-attachment:wiki:Hinet100402:03.HadoopInstallation.pdf Hadoop 安裝與設定解析] || [raw-attachment:wiki:Hinet100402:03.HadoopInstallation.pdf Part-02] || - [wiki:Hadoop4Win 單機 Windows 嚐鮮實驗環境 - Hadoop4Win][[BR]]- [http://www.cloudera.com/developers/downloads/virtual-machine/ Cloudera Hadoop 虛擬機器]||
 || 14:30~15:00 || HDFS 操作與 MapReduce 範例程式展示 || || ||

 * 補充：[wiki:Hadoop_Lab5 用 Eclipse 開發 hadoop 程式] 
 * 基於 !NetBeans 的 MapReduce 開發環境 - [http://www.hadoopstudio.org/ Hadoop Studio] - Karmasphere Studio for Hadoop is a Sample screenshot MapReduce development environment (IDE) based on !NetBeans.

== 作業 ==

 * 題組一：
  * 使用 Cloudera Hadoop VM 練習完成 inverse index 題目撰寫。
  * 標準題：因為有多數同學不熟悉 Java 程式語言，因此第一次作業主要以環境安裝、實作練習為主，請各位同學繳交實驗報告一份。(80%)
  * 加分題：以 Cloudera Hadoop VM 那一份待運算的資料，比較 inverse index 在單機虛擬機器的執行時間與在 21 台實驗環境上的執行時間。(20%)
  * 參考報告格式：
    * 實驗步驟
    * 標準題結果：(1) shakespear 資料集跑 inverse index 執行結果前 20 筆；(2) 從 !JobTracker 網頁（ http://localhost:50030 ）查詢執行時間。
    * 加分題結果：(1) shakespear 資料集跑 inverse index 執行結果前 20 筆；(2) 從 !JobTracker 網頁（ http://hadoop.nchc.org.tw:50030 ）查詢執行時間。
  * 繳交時間：四月二十一日(三)
  * 繳交方式：以個人為單位，將報告 e-mail 至 jazz@nchc.org.tw
 * 題組二：
  * 已知 java 語法中，extends 代表繼承自父類別，implement 代表實作某介面(Interface,類似 C++ 多重繼承)，請根據 WordCount 範例程式(wordcount.java)，繪製 UML 類別圖（如下圖）。(20%) 註：繪製 UML 可以使用 [http://alexdp.free.fr/violetumleditor/page.php Violet UML Editor]
    * [[Image(wiki:NCTU100407:wordcount_uml.jpg)]]
  * 以 hadoop 0.20.2 預設的 conf 目錄為輸入，使用 hadoop fs -put conf input 上傳檔案至 HDFS，請嘗試在 wordcount 範例程式中加入 system.out.println，並回答 map() 函數輸入的 key 內容為何？(20%)
  * 乘上題，根據 wordcount 執行過程，當單機執行時，請問同時有幾個 mapper 被執行？並請參考以下圖形，繪製單機運作時 mapper 與 reducer 運作順序。(20%)
  * 將 wordcount 範例移植到國網中心 hadoop.nchc.org.tw 上運行，請問同時有幾個 mapper 被執行？並請參考以下圖形，繪製單機運作時 mapper 與 reducer 運作順序。(20%)
  * 試根據單機執行與叢集執行的 !JobTracker 網頁（ http://localhost:50030 & http://hadoop.nchc.org.tw:50030 ）查詢總執行時間，並比較兩者之時間差異。(20%)