{{{ #!html
雲端巨量資料處理平台 Hadoop 及其應用實作
}}} [[PageOutline]] = 預備知識 = * 具 Linux 操作實務與 Java 程式語言基礎者尤佳。 = 課程日期 = * 102年8月7~27日 (週二/週三 白天 10:00 ~ 16:00 ),共 6 天、計 30 小時 。 = 上課地點 = * 元智大學資訊學院 一館 1201 教室 = 課程內容 = == '''2013-08-07(三)''' == || 上午時段 || 課程內容 || 投影片 || 實作 || 補充資料 || || 10:00~11:00 || 淺談海量資料的趨勢、挑戰與因應對策 || [raw-attachment:wiki:YZU130807:part-1.pdf part-1] || || || || 11:00~12:00 || 處理海量資料的資訊架構與關鍵技術 || [raw-attachment:wiki:YZU130807:part-2.pdf part-2] || || || || 12:00~13:00 || 午餐、午休 || || || || || 下午時段 || 課程內容 || 投影片 || 實作 || 補充資料 || || 13:00~13:30 || 實作一:Hadoop 單機安裝 (on Windows) || || [wiki:YZU130807/Lab1 實作一] || || || 13:30~13:50 || 實作二:Hadoop 實驗叢集帳號申請 || || [wiki:YZU130807/Lab2 實作二] || || || 13:50~14:10 || 中場休息 || || || || || 14:10~14:50 || Hadoop 簡介:緣起與術語 || [raw-attachment:wiki:YZU130807:part-3.pdf part-3] || || || || 15:30~15:40 || 中場休息 || || || || || 15:40~16:00 || 實作三:HDFS 基本操作練習(單機) || || [wiki:YZU130807/Lab3 實作三] || || == '''2013-08-13(二)''' == || 上午時段 || 課程內容 || 投影片 || 實作 || 補充資料 || || 10:00~10:20 || 實作四:HDFS 基本操作練習(叢集) || || [wiki:YZU130807/Lab4 實作四] || || || 10:20~11:20 || HDFS 觀念與指令解說 || [raw-attachment:wiki:YZU130807:part-4.pdf part-4] || || || || 11:20~11:40 || 中場休息 || || || || || 11:40~12:00 || 實作五:HDFS 進階指令操作與行為觀察(叢集) || || [wiki:YZU130807/Lab5 實作五] || || || 12:00~13:00 || 午餐、午休 || || || || || 下午時段 || 課程內容 || 投影片 || 實作 || 補充資料 || || 13:00~13:20 || MapReduce簡介 || [raw-attachment:wiki:YZU130807:part-5.pdf part-5] || || || || 13:20~13:35 || 實作六:在單機模式執行 MapReduce 基本運算範例 || || [wiki:YZU130807/Lab6 實作六] || || || 13:35~13:55 || 實作七:在完全分散模式執行 MapReduce 基本運算範例 || || [wiki:YZU130807/Lab7 實作七] || || || 13:55~14:10 || 中場休息 || || || || || 14:10~15:55 || Hadoop 叢集安裝設定解說 || [raw-attachment:wiki:YZU130807:part-6.pdf part-6] || || || || 15:55~16:00 || 補充說明 || || || 1. [http://www.cloudera.com/content/cloudera/en/products/cdh.html CDH (Cloudera’s Distribution Including Apache Hadoop)] [[BR]] 2. [http://hortonworks.com/download/ Hortonworks Data Platform (HDP)] [[BR]] 3. 雲端大量佈屬工具 Configuration Management - [http://www.opscode.com/chef/ Chef] 或 [https://puppetlabs.com/ Puppet] || == '''2013-08-14(三)''' == || 上午時段 || 課程內容 || 投影片 || 實作 || 補充資料 || || 10:00~12:00 || 實作八:安裝 VirtualBox 與 Ubuntu Linux [[BR]]     Hadoop 單機安裝腳本 || [raw-attachment:wiki:YZU130807:part-7.pdf part-7] || [wiki:YZU130807/Lab8 實作八] || || || 12:00~13:00 || 午餐、午休 || || || || || 下午時段 || 課程內容 || 投影片 || 實作 || 補充資料 || || 13:00~15:00 || 實作九:運用 VirtualBox 實作兩台 Hadoop 節點串連 || || [wiki:YZU130807/Lab9 實作九] || || || 略 || 實作十:Hadoop MapReduce 程式編譯實務(單機) || || [wiki:YZU130807/Lab10 實作十] || || || 15:00~16:00 || 實作十一:Hadoop MapReduce 程式編譯實務(叢集) || || [wiki:YZU130807/Lab11 實作十一] || || == '''2013-08-20(二)''' == || 上午時段 || 課程內容 || 投影片 || 實作 || 補充資料 || || 10:00~11:10 || Hadoop 相關專案(1) - Hadoop Streaming 簡介 || [raw-attachment:wiki:YZU130807:part-8.pdf part-8] || || || || 11:10~11:20 || 中場休息 || || || || || 11:20~12:00 || 實作十二:Hadoop Streaming 操作練習 || || [wiki:YZU130807/Lab12 實作十二] || || || 12:00~13:00 || 午餐、午休 || || || || || 下午時段 || 課程內容 || 投影片 || 實作 || 補充資料 || || 13:00~13:30 || 實作十三:綜合複習:HDFS、MapReduce 與 Hadoop Streaming 觀念驗證 || || [wiki:YZU130807/Lab13 實作十三] || || || 13:30~14:00 || Hadoop 相關專案(2) - Pig 簡介 || [raw-attachment:wiki:YZU130807:part-9.pdf part-9] || || || || 13:40~14:10 || 實作十四:Pig Latin 操作練習 || || [wiki:YZU130807/Lab14 實作十四] || || || 14:10~14:30 || 中場休息 || || || || || 14:30~15:00 || NoSQL 簡介 - 以 HBase 為例 || [raw-attachment:wiki:YZU130807:part-8.pdf part-8] || || 1. 參考 [http://labs.yahoo.com/news/yahoo-cloud-serving-benchmark/ Yahoo! Cloud Serving Benchmark] 了解何時該採用 NoSQL - [wiki:NCHCCloudCourse100928 <1>] || || 15:00~15:40 || 實作十五:HBase 操作觀察 || || [wiki:YZU130807/Lab15 實作十五] || || || 15:40~16:00 || 課程問卷 || || || http://goo.gl/qYC8dM || == '''2013-08-27(二)''' == || 上午時段 || 課程內容 || 投影片 || 實作 || 補充資料 || || || Hadoop 進階實作: Hadoop 的三種模式與三種安裝方法 || || || || || || 實作十六:單機模式(Local Mode)操作觀察 || || [wiki:YZU130807/Lab16 實作十六] || || || 下午時段 || 課程內容 || 投影片 || 實作 || 補充資料 || || || 實作十七:偽分散式模式(Pseudo-Distributed Mode)操作觀察 || || [wiki:YZU130807/Lab17 實作十七] || || || || 實作十八:全分散式模式(Full Distributed Mode)操作觀察 || || [wiki:YZU130807/Lab18 實作十八] || || || || 實作十九:基本除錯技能(一) Bash 除錯 || || [wiki:YZU130807/Lab19 實作十九] || || || || 實作二十:基本除錯技能(二) Log4J || || [wiki:YZU130807/Lab20 實作二十] || || || || 實作二十一:基本除錯技能(三) 運用環境變數動態切換模式 || || [wiki:YZU130807/Lab21 實作二十一] || || == '''2013-09-03(二)''' == || 上午時段 || 課程內容 || 投影片 || 實作 || 補充資料 || || || 實作二十二: Eclipse 安裝 || || [wiki:YZU130807/Lab22 實作二十二] || || || 下午時段 || 課程內容 || 投影片 || 實作 || 補充資料 || = 參考書目 = 1. [http://forum.hadoop.tw/viewtopic.php?f=4&t=301 <學習資源> Hadoop 目前三本書籍] 2. [http://lintool.github.com/MapReduceAlgorithms/MapReduce-book-final.pdf Data-Intensive Text Processing with MapReduce] (PDF),[http://www.umiacs.umd.edu/~jimmylin/book.html Jimmy Lin, University of Maryland] = 參考資料 = * [raw-attachment:wiki:jazz/hidoop:12-07-24_hiCloud_Hadoop.pdf 運用 hiCloud 搭建 Hadoop 叢集] * Hadoop 常見應用領域: * [http://www-304.ibm.com/easyaccess/fileserve?contentid=217007 Data Intensive Analytics with Hadoop: A Look Inside] * [http://www.youtube.com/watch?v=fVL93-OF1gc Using Hadoop to fight spam in Yahoo! Mail] - 雅虎信箱 * 商業智慧 * http://www.pentaho.com/ - Pentaho 這間 BI 公司是 Hadoop 技術的長期支持者 * 金融業 * 2010-10-12 : VISA 採用 Hadoop 做風險評估 - [http://www.slideshare.net/cloudera/hw09-large-scale-transaction-analysis HadoopWorld 2009 : Large Scale Transaction Analysis] * 中國信託 * 電信業 * 2011-06-12 : [http://www.ithome.com.tw/itadm/article.php?c=68023 中華電信用Hadoop技術分析通話明細] * 智慧電網 * [http://news.cnet.com/8301-13846_3-10393259-62.html Open-source Hadoop powers Tennessee smart grid] * 美國的智慧電網公開資料集 - http://openpdc.codeplex.com/ * 人力資源 * [http://www.simplyhired.com/a/jobtrends/trend/q-xen%2C+hyper-v%2C+hbase%2C+hadoop SimplyHired 就業技能調查排行榜] * [http://www.indeed.com/jobtrends?q=xen%2C+hyper-v%2C+hbase%2C+hadoop&l= Indeed 就業技能調查排行榜] * 行銷趨勢 * [http://www.eland.com.tw/solutions/opview_insight 意藍科技 雲端服務 OpView 品牌口碑雷達] - ([http://www.eland.com.tw/news/news/20100506 2010-05-06]) * [http://www.i-buzz.com.tw/index.asp i-Buzz網路口碑研究中心] * 科學教育 * 生資 * [http://www.slideshare.net/mndoci/hadoop-for-bioinformatics Hadoop for Bioinformatics] * [http://cloudcomputing.sys-con.com/node/1869333 The Future of Hadoop in Bioinformatics] * [http://abhishek-tiwari.com/2010/08/mapreduce-and-hadoop-algorithms-in-bioinformatics-papers.html Mapreduce and Hadoop Algorithms in Bioinformatics Papers] * 統計 * [https://mpi-inf.mpg.de/~rgemulla/publications/das10ricardo.pdf Ricardo: Integrating R and Hadoop] * [http://www.rhipe.org RHIPE: R and Hadoop Integrated Programming Environment] * 免費課程 - 把類似今天的課程再聽一次 * http://www.classcloud.org/media * Hadoop 進階程式設計相關資訊 * [http://trac.nchc.org.tw/cloud/wiki/NCHCCloudCourse110721 雲端運算進階課程(一)@ 新竹 - Hadoop 進階程式設計與 HBase 資料庫整合實作] * [http://trac.nchc.org.tw/cloud/wiki/NCHCCloudCourse100928_2_IDE 編譯環境設定- 安裝 Eclipse 3.3.2 與 Hadoop 外掛程式] * [http://trac.nchc.org.tw/cloud/wiki/NCHCCloudCourse100928/Netbeans 安裝 Netbean 6.9.1 中文版與 KamaSphere Studio 外掛程式] = 課後練習 = * 使用[http://trac.nchc.org.tw/cloud/wiki/Hadoop4Win Hadoop4Win] - 在 Windows 上安裝單機版 Hadoop 與 HBase 練習環境 ('''注意:僅供練習使用,請勿用於實際營運!''') * 使用 HBase 0.90 改寫以上範例 [http://trac.nchc.org.tw/cloud/wiki/waue/2011/0426 code example ] * [http://sourceforge.net/projects/drbl-hadoop/files/ DRBL-Hadoop Live CD] (CDH2, 0.20.x) - 國網中心 hadoop.nchc.org.tw 的底層作法,使用方法仍在整理中~但已足夠作為練習 Hadoop 的執行環境 * 使用[http://www.cloudera.com/downloads/ Cloudera 提供的 VMWare Image] (CDH2, 0.20.x) * 使用[http://developer.yahoo.com/hadoop/tutorial/module3.html#vm Yahoo! Hadoop Tutorial 的 VMWare Image] (0.20.S) * 使用[http://code.google.com/intl/zh-TW/edu/parallel/tools/hadoopvm/index.html Google 提供的 Hadoop VMWare Image] (0.13,很舊了) = 公用環境 = * 課後問題討論,建議優先至台灣 Hadoop 使用者討論區 http://forum.hadoop.tw 進行討論。 * 需要 Hadoop 叢集環境,可至 http://hadoop.nchc.org.tw 申請帳號。 * 申請步驟,請參閱[wiki:YMU110509/Lab1 截圖說明] * 關於公用叢集的幾個重要入口: * http://hadoop.nchc.org.tw - 實驗叢集入口網站 * http://hadoop.nchc.org.tw/ganglia - 實驗叢集負載狀態 * http://hadoop.nchc.org.tw:50030 - 實驗叢集正在執行與執行完畢的任務 * http://hadoop.nchc.org.tw:50070 - 實驗叢集的硬碟空間狀態 * http://hadoop.nchc.org.tw/hadoop-doc - Hadoop 相關說明文件 * http://hadoop.nchc.org.tw/hadoop-doc/api/index.html - Hadoop 0.20.2 javadoc 文件 = 輔助工具 = * [http://portableapps.com/apps/internet/firefox_portable/localization Firefox Portable (繁體中文版)] * [http://azo-freeware.blogspot.com/2009/08/zoomit-40.html ZoomIt (簡報放大鏡)] = 科技新知 = * [[Image(http://readwrite.com/files/files/files/solution-series/assets_c/2011/05/infographicyottabyte_thumb1-thumb-560x1085-29962.jpg)]]