Changes between Initial Version and Version 1 of III131207


Ignore:
Timestamp:
Nov 16, 2013, 2:18:43 PM (10 years ago)
Author:
jazz
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • III131207

    v1 v1  
     1{{{
     2#!html
     3<div style="text-align: center;"><big
     4 style="font-weight: bold;"><big><big>雲端運算之大量資料處理、分析與應用</big></big></big></div>
     5}}}
     6[[PageOutline]]
     7
     8= 報名資訊 =
     9
     10 * 詳[http://www.iiiedu.org.tw/ites/CBD.htm 資策會網站公告]
     11
     12= 課程源起 =
     13{{{
     14#!text
     15  雲端運算掀起了新一代的資訊革命,也帶來了資訊爆炸式的成長,根據最新IDC研究報告指出:
     162010年全球資料量將進入ZB(zettabytes,1 ZB 為1兆GB)時代,並且每年以60%的速度攀升,
     17這意味著每18個月全球的資料量將翻倍。面對不斷擴張的驚人資料量,大量資料的儲存、管理、處理
     18、搜尋、分析與智能應用等處理資料的能力將面臨新的挑戰,處理資料技術也迫切需要可動態與彈性
     19的特點,以支援大量資料處理的計算模式。
     20
     21  雲端運算使得分散式運算技術成了新顯學,整合MapReduce演算法並被各大企業所廣泛採用的
     22Hadoop套件,更是開發雲端運算技術的佼佼者,它是用來處理與保存大量資料的雲端運算平台。
     23全球各大IT企業(如:雅虎、IBM等)無不積極投資與推廣此一計算模式,並被作為雲端運算環境中
     24的重要基礎軟件。有了Hadoop軟體平台後,始可進行各項分析,如:電信業者如今可以分析手機在
     25基地台漫遊的特性,提供更好的在地費率;信用卡業者如今可以每天定期分析各種信用貸款所產生的
     26風險,動態調整信貸利率;便利超商如今可以分析消費者的購買習慣,動態調整架上存貨數量;甚至
     27新興產業,如生醫資訊、智慧電網等皆可運用Hadoop平台來進行資料探勘與趨勢預測。若您的企業
     28有儲存海量資料的需求,有分析海量資料的需求,或者面臨資料庫過度龐大,正在尋求分散式資料庫
     29或資料倉儲的技術,那Hadoop或許是一個已通過商業驗證的選擇。只要懂得駕馭Hadoop這隻大象,
     30它將能駝著您爬過一座座資料大山,幫您理出隱藏在群眾中的邏輯。
     31}}}
     32
     33= 課程目標 =
     34{{{
     35#!text
     36學習雲端運算之三大關鍵技術,及利用Hadoop之分散式檔案系統(HDFS)與MapReduce,快速建構
     37出雲端運算的執行環境和服務,並以實作方式讓學員了解如何透過Hadoop架構以進行雲端資料的大量
     38資料處理、分析與應用。
     39}}}
     40= 課程特色 =
     41
     42 * 本課程屬於基礎觀念課程,不特別講解程式設計;
     43 * 實作將採體驗式教學,亦即先透過指令剪貼方式,體驗一次操作,從體驗中驗證所學觀念。
     44
     45= 適合對象 =
     46
     47 * IT經理或系統網路部門主管
     48 * 專案經理、系統架構師或系統網路管理人員
     49 * 企業或技術決策人員
     50 * 對於私有雲端運算有興趣的人士
     51
     52= 預備知識 =
     53
     54 * 具 Linux 操作實務與 Java 程式語言基礎者尤佳。
     55
     56= 課程日期 =
     57
     58 * 102年12月7~8日 (週六/週日 白天9:00 ~17:00 ),共2天、計14小時 。
     59
     60= 上課地點 =
     61
     62 * 資策會數位教育研究所,台北市信義路三段 153 號 10 樓 1001 教室。
     63 * 位於捷運木柵線大安站斜對面(復興南路與信義路交叉口),燦坤樓上。
     64 * 上課地點與教室之確認,以上課通知函為主。
     65
     66= 課程內容 =
     67
     68 * [raw-attachment:wiki:III131207:13-12-07_Big_Data_and_Hadoop_Ecosystem.pdf 完整版投影片]
     69
     70== '''2013-12-07(六)''' ==
     71
     72 || 上午時段 || 課程內容 || 投影片 || 實作 || 補充資料 ||
     73 || 09:00~10:00 || 淺談海量資料的趨勢、挑戰與因應對策 || [raw-attachment:wiki:III131207:part-1.pdf part-1] || || 1.關於 NoSQL 的選擇依據 - [cloud:wiki:NCHCCloudCourse100928#補充資料 YCSB] [[BR]] 2. [http://nosql-database.org/ NoSQL 的種類] [[BR]] 3. [http://www.infoq.com/news/2011/04/newsql NoSQL vs NewSQL] [[BR]] 4. [http://www.slideshare.net/jazzwang/13-0702-bigdatataiwansupplychainandcommunities Big Data 產業供應鏈與人才現況] [[BR]] 5. [http://www.meetup.com/Taiwan-useR-Group Taiwan 學習統計/機器學習的社群] ||
     74 || 10:00~11:00 || 處理海量資料的資訊架構與關鍵技術 || [raw-attachment:wiki:III131207:part-2.pdf part-2] || || ||
     75 || 11:00~11:10 || 中場休息 || || || ||
     76 || 11:10~12:00 || 實作一:Hadoop 單機安裝 || || [wiki:III131207/Lab1 實作一][[BR]][wiki:III131207/Lab2 實作二] || 1. [http://forum.hadoop.tw/viewtopic.php?p=40963#p40963 Hadoop 單機安裝(Ubuntu Linux)] ||
     77 || 12:00~13:00 || 午餐、午休 || || || ||
     78 || 下午時段 || 課程內容 || 投影片 || 實作 || 補充資料 ||
     79 || 13:00~14:20 || Hadoop 簡介:緣起與術語 || [raw-attachment:wiki:III131207:part-3.pdf part-3] || || ||
     80 || 14:20~15:30 || HDFS 觀念與指令解說 || [raw-attachment:wiki:III131207:part-4.pdf part-4] || || ||
     81 || 15:30~15:40 || 中場休息 || || || ||
     82 || 15:40~17:00 || 實作二:HDFS 操作實務 || || [wiki:III131207/Lab3 實作三][[BR]][wiki:III131207/Lab4 實作四] || ||
     83
     84== '''2013-12-08(日)''' ==
     85
     86 || 上午時段 || 課程內容 || 投影片 || 實作 || 補充資料 ||
     87 || 09:00~11:00 || MapReduce 簡介 || [raw-attachment:wiki:III131207:part-5.pdf part-5] || || 1. [wiki:III131207#參考資料 三種 Big Data 應用特性 vs 三種技術] [[BR]] 2. [http://hadoop.apache.org/docs/current/api/org/apache/hadoop/mapred/lib/ChainMapper.html ChainMapper], [http://hadoop.apache.org/docs/current/api/org/apache/hadoop/mapred/lib/ChainReducer.html ChainReducer] [[BR]] ||
     88 || 11:00~11:10 || 中場休息 || || || ||
     89 || 11:10~12:10 || 實作三:MapReduce 範例操作 || || [wiki:III131207/Lab5 實作五][[BR]][wiki:III131207/Lab6 實作六] || 1. [raw-attachment:wiki:jazz/12-05-04:12-05-04_DRBL-Hadoop-Bioinfomatics.pdf 叢集安裝與MapReduce除錯] ||
     90 || 下午時段 || 課程內容 || 投影片 || 實作 || 補充資料 ||
     91 || 13:10~13:40 || Hadoop 範例程式 WordCount 與觀念講解 || [https://raw.github.com/apache/hadoop/trunk/src/examples/org/apache/hadoop/examples/WordCount.java 程式碼] || || ||
     92 || 13:40~14:00 || Hadoop 相關專案(1) Hadoop Streaming || [raw-attachment:wiki:III131207:part-7.pdf part-7] || || ||
     93 || 14:00~14:25 || 實作五:Hadoop Streaming 操作練習 || || [wiki:III131207/Lab9 實作九][[BR]][wiki:III131207/Lab10 實作十] || ||
     94 || 14:25~14:35 || 中場休息 || || || ||
     95 || 14:35~15:00 || Hadoop 叢集安裝設定解說 || [raw-attachment:wiki:III131207:part-6.pdf part-6] || || ||
     96 || 15:00~15:30 || Hadoop 相關專案(2) - Pig || [raw-attachment:wiki:III131207:part-8.pdf part-8] || || 1.[http://stackoverflow.com/questions/10942739/a-way-to-read-table-data-from-mysql-to-pig 將 Pig 運算結果透過 DBStorage 存到 MySQL 資料庫] [[BR]] 2. [http://sublogical.blogspot.tw/2011/10/cross-posted-from-my-company-blog-post.html 將 Pig 運算結果透過 HBaseStorage 存到 HBase 資料庫] ||
     97 || 15:30~16:00 || 實作六:Pig Latin 操作練習 || || [wiki:III131207/Lab11 實作十一] || ||
     98 || 16:00~16:10 || 中場休息 || || || ||
     99 || 16:10~17:00 || HBase 操作觀察 || [raw-attachment:wiki:III131207:part-7.pdf part-7] || [wiki:III131207/Lab12 實作十二] || ||
     100 ||  || || || ||
     101 ||  || 實作四:Hadoop 程式編譯實務 || || [wiki:III131207/Lab7 實作七][[BR]][wiki:III131207/Lab8 實作八] || ||
     102
     103= 參考書目 =
     104
     105 1. [http://forum.hadoop.tw/viewtopic.php?f=4&t=301 <學習資源> Hadoop 目前三本書籍]
     106 2. [http://lintool.github.com/MapReduceAlgorithms/MapReduce-book-final.pdf Data-Intensive Text Processing with MapReduce] (PDF),[http://www.umiacs.umd.edu/~jimmylin/book.html Jimmy Lin, University of Maryland]
     107
     108= 參考資料 =
     109
     110 * [[Image(3_Types_Big_Data_Computing.png,width=800)]]
     111
     112 * [http://trac.nchc.org.tw/cloud/wiki/NCHCCloudCourse100928_MYSQL  Hadoop 與 RDBMS 的支援]
     113
     114 * [raw-attachment:wiki:jazz/hidoop:12-07-24_hiCloud_Hadoop.pdf 運用 hiCloud 搭建 Hadoop 叢集]
     115
     116 * Hadoop 常見應用領域:
     117   * [http://www-304.ibm.com/easyaccess/fileserve?contentid=217007 Data Intensive Analytics with Hadoop: A Look Inside]
     118   * [http://www.youtube.com/watch?v=fVL93-OF1gc Using Hadoop to fight spam in Yahoo! Mail] - 雅虎信箱
     119   * 商業智慧
     120     * http://www.pentaho.com/ - Pentaho 這間 BI 公司是 Hadoop 技術的長期支持者
     121   * 金融業
     122     * 2010-10-12 : VISA 採用 Hadoop 做風險評估 - [http://www.slideshare.net/cloudera/hw09-large-scale-transaction-analysis HadoopWorld 2009 : Large Scale Transaction Analysis]
     123     * 中國信託
     124   * 電信業
     125     * 2011-06-12 : [http://www.ithome.com.tw/itadm/article.php?c=68023 中華電信用Hadoop技術分析通話明細]
     126   * 人力資源
     127     * [http://www.simplyhired.com/a/jobtrends/trend/q-xen%2C+hyper-v%2C+hbase%2C+hadoop SimplyHired 就業技能調查排行榜]
     128     * [http://www.indeed.com/jobtrends?q=xen%2C+hyper-v%2C+hbase%2C+hadoop&l= Indeed 就業技能調查排行榜]
     129   * 行銷趨勢
     130     * [http://www.eland.com.tw/solutions/opview_insight 意藍科技 雲端服務 OpView 品牌口碑雷達] - ([http://www.eland.com.tw/news/news/20100506 2010-05-06])
     131     * [http://www.i-buzz.com.tw/index.asp i-Buzz網路口碑研究中心]
     132   * 科學教育
     133     * 生資
     134       * [http://www.slideshare.net/mndoci/hadoop-for-bioinformatics Hadoop for Bioinformatics]
     135       * [http://cloudcomputing.sys-con.com/node/1869333 The Future of Hadoop in Bioinformatics]
     136       * [http://abhishek-tiwari.com/2010/08/mapreduce-and-hadoop-algorithms-in-bioinformatics-papers.html Mapreduce and Hadoop Algorithms in Bioinformatics Papers]
     137     * 統計
     138       * [https://mpi-inf.mpg.de/~rgemulla/publications/das10ricardo.pdf Ricardo: Integrating R and Hadoop]
     139       * [http://www.rhipe.org RHIPE: R and Hadoop Integrated Programming Environment]
     140
     141 * 免費課程 - 把類似今天的課程再聽一次
     142   * http://www.classcloud.org/media
     143 * Hadoop 進階程式設計相關資訊
     144   * [http://trac.nchc.org.tw/cloud/wiki/NCHCCloudCourse110721 雲端運算進階課程(一)@ 新竹 - Hadoop 進階程式設計與 HBase 資料庫整合實作]
     145   * [http://trac.nchc.org.tw/cloud/wiki/NCHCCloudCourse100928_2_IDE 編譯環境設定- 安裝 Eclipse 3.3.2 與 Hadoop 外掛程式]
     146   * [http://trac.nchc.org.tw/cloud/wiki/NCHCCloudCourse100928/Netbeans 安裝 Netbean 6.9.1 中文版與 KamaSphere Studio 外掛程式]
     147
     148= 課後練習 =
     149
     150 * 使用[http://trac.nchc.org.tw/cloud/wiki/Hadoop4Win Hadoop4Win] - 在 Windows 上安裝單機版 Hadoop 與 HBase 練習環境 ('''注意:僅供練習使用,請勿用於實際營運!''')
     151 * 使用 HBase 0.90 改寫以上範例 [http://trac.nchc.org.tw/cloud/wiki/waue/2011/0426  code example ]
     152 * [http://sourceforge.net/projects/drbl-hadoop/files/ DRBL-Hadoop Live CD] (CDH2, 0.20.x) - 國網中心 hadoop.nchc.org.tw 的底層作法,使用方法仍在整理中~但已足夠作為練習 Hadoop 的執行環境
     153 * 使用[http://www.cloudera.com/downloads/ Cloudera 提供的 VMWare Image] (CDH2, 0.20.x)
     154 * 使用[http://developer.yahoo.com/hadoop/tutorial/module3.html#vm Yahoo! Hadoop Tutorial 的 VMWare Image] (0.20.S)
     155 * 使用[http://code.google.com/intl/zh-TW/edu/parallel/tools/hadoopvm/index.html Google 提供的 Hadoop VMWare Image] (0.13,很舊了)
     156
     157= 公用環境 =
     158
     159 * 課後問題討論,建議優先至台灣 Hadoop 使用者討論區 http://forum.hadoop.tw 進行討論。
     160 * 需要 Hadoop 叢集環境,可至 http://hadoop.nchc.org.tw 申請帳號。
     161   * 申請步驟,請參閱[wiki:YMU110509/Lab1 截圖說明]
     162 * 關於公用叢集的幾個重要入口:
     163 * http://hadoop.nchc.org.tw - 實驗叢集入口網站
     164 * http://hadoop.nchc.org.tw/ganglia - 實驗叢集負載狀態
     165 * http://hadoop.nchc.org.tw:50030 - 實驗叢集正在執行與執行完畢的任務
     166 * http://hadoop.nchc.org.tw:50070 - 實驗叢集的硬碟空間狀態
     167 * http://hadoop.nchc.org.tw/hadoop-doc - Hadoop 相關說明文件
     168 * http://hadoop.nchc.org.tw/hadoop-doc/api/index.html - Hadoop 0.20.2 javadoc 文件
     169
     170= 輔助工具 =
     171
     172 * [http://portableapps.com/apps/internet/firefox_portable/localization Firefox Portable (繁體中文版)]
     173 * [http://azo-freeware.blogspot.com/2009/08/zoomit-40.html ZoomIt (簡報放大鏡)]
     174
     175= 科技新知 =
     176
     177 * [[Image(http://readwrite.com/files/files/files/solution-series/assets_c/2011/05/infographicyottabyte_thumb1-thumb-560x1085-29962.jpg)]]