{{{ #!html
平行環境與程式設計
Parallel Environment and Programming
}}} [[PageOutline]] = 課程資訊 Course Info. = * 上課時間: 2011/3/29 (二) ~ 2011/4/26 (二) 13:30 ~ 16:20 * Date and Time: 13:30 to 16:20, from 29 March 2011 to 26 April. 2011, every Tuesday * 上課地點: 交通大學 工程三館 EC315 電腦教室 / EC305 電腦教室 * Location: EC315, Natioanl Chiao-Tung University = 課程大綱 Course Outline = || 時段[[BR]]Date || 分類[[BR]]Section || 課程內容 Topics || 投影片[[BR]]Slides || 實作[[BR]]Hands-On || 補充資料[[BR]]Notes || || 3/29 || Introduction || - 雲端運算的緣起、趨勢與定義 [[BR]] - Introduction to Cloud Computing Technologies || [raw-attachment:wiki:NCTU110329:part-1.pdf part-1] || [wiki:NCTU110329/Lab1 實作一] || || || 3/29 || Introduction || - 雲端運算核心技術一:運用虛擬化技術打造 IaaS [[BR]] - Introduction to Virtualization || [raw-attachment:wiki:NCTU110329:part-2.pdf part-2] || [wiki:NCTU110329/Lab2 實作二] || || || 4/12 || Hands-On || - 雲端運算核心技術二:運用資料探勘技術打造 PaaS [[BR]] - Introduction to Hadoop [[BR]] - Introduction to HDFS || [raw-attachment:wiki:NCTU110329:part-3.pdf part-3] || [wiki:NCTU110329/Lab3 實作三][[BR]][wiki:NCTU110329/Lab4 實作四] || || || 4/19 || Hands-On || - 雲端運算核心技術二:運用資料探勘技術打造 PaaS [[BR]] - Introduction to MapReduce [[BR]] - MapReduce 程式架構簡介與編譯練習 [[BR]] - MapReduce Programming 101 || [raw-attachment:wiki:NCTU110329:part-3.pdf part-3][[BR]][raw-attachment:wiki:NCTU110329:part-4.pdf part-4] || [wiki:NCTU110329/Lab5 實作五][[BR]][wiki:NCTU110329/Lab6 實作六] || [wiki:NCHCCloudCourse100928_2_IDE 使用 Eclipse 開發 Hadoop 程式] || || 4/26 || Hands-On || - Hadoop 相關專案簡介 [[BR]] - Introduction to Hadoop Ecosystem [[BR]] - 大型網站架構與 HBase 分散式資料庫 [[BR]] - Large Scale Website and HBase distributed datastore [[BR]] - Pig 簡介 [[BR]] - Introduction to Pig [[BR]] - 雲端運算核心技術三:運用網頁技術打造 SaaS - 抓抓龍簡介 [[BR]] - Introduction to Crawlzilla || [raw-attachment:wiki:NCTU110329:part-5.pdf part-5][[BR]][raw-attachment:wiki:NCTU110329:part-6.pdf part-6][[BR]][raw-attachment:wiki:NCTU110329:part-7.pdf part-7] || [wiki:NCTU110329/Lab7 實作七][[BR]][wiki:NCTU110329/Lab8 實作八] || = 補充資料 = * [http://developer.yahoo.com/hadoop/tutorial/module7.html Yahoo! Developer Network - Hadooop Tutorial] 有介紹如何調整 Hadoop 參數的參考數據 == Screen == * 在網路不穩定的環境下,為了保持 SSH 連線的畫面,常常會使用 screen 來作為長時間登入伺服器的工具。使用 screen 後,就可以在 ssh client 不正常關閉或網路斷線後,仍可以接回原本的畫面。 * [http://blog.seety.org/everydaywork/2007/4/25/669/ screenrc 範例] * [備註] 拿掉時鐘的部份,以免造成往上捲動會不斷被拉回的困擾。 {{{ $ cat > .screenrc < filename(separated by comma)". Try to run it by ignoring "\." and "\," pattern and case-insensitive. * 參考步驟:[[BR]]Here is the reference steps: {{{ #!sh $ wget http://hadoop.nchc.org.tw/WordCount2.java -O ReverseIndex.java $ vi ReverseIndex.java #### DO YOUR MODIFICATION - 修改對應的程式碼 $ mkdir -p MyJava3 $ javac -classpath hadoop-core.jar -d MyJava3 ReverseIndex.java $ jar -cvf reverseindex.jar -C MyJava3 . $ hadoop jar reverseindex.jar ReverseIndex -Dwordcount.case.sensitive=false lab6_input lab6_out4 -skip pattern.txt $ hadoop fs -cat lab6_out4/part-00000 }}} * 參考結果應該為:(路徑不限)[[BR]]The reference result should be as following:(no limitation for the format of "path") {{{ and input2 cloud input1,input2 course input1,input2,input2 enjoy input2 i input1,input2 like input1,input2 nctu input1,input2 this input2 we input2 }}} * 繳交期限:2011年5月3日(二) 上午 11:59 * Due date: 11:59 AM, Tuesday, May 3th, Year 2011 * 繳交方式:將原始碼與報告以附件方式寄至 jazz _AT_ nchc _DOT_ org _DOT_ tw (1) 程式原始碼一份:以 ${學號}.zip 方式壓縮與命名 (2) 報告一份:以 ${學號} 命名。 * Please e-mail the java source code and report (doc or PDF) to jazz _AT_ nchc _DOT_ org _DOT_ tw * 提示:[[BR]]Hint: * 請將 Mapper 輸出、Reducer 輸入輸出的 (Key,Value) 由原本的 (Text, !IntWritable) 改成 (Text, Text) * Replace (Key,Value) pair from (Text, !IntWritable) to (Text, Text) * 加分題:(Extra) * 試將出現次數統計加入結果,亦即參考結果如下:[[BR]]Try to add count of each file in the result, i.e. The reference result should be as following: {{{ and input2(1) cloud input1(1),input2(1) course input1(1),input2(2) enjoy input2(1) i input1(1),input2(1) like input1(1),input2(1) nctu input1(1),input2(1) this input2(1) we input2(1) }}} * 配分比例: * 標準題原始碼 Source Code:60% * 報告 Report :20% * 參考內容入下:Reference Items should be shown in your report * 封面 Cover : 姓名、學號 ( Your Name and ID ) * 於 hadoop.nchc.org.tw 執行的擷圖(Screenshot of your program running on hadoop.nchc.org.tw) * 執行結果 The result of your program * 加分題:20%