{{{
#!html
<div style="text-align: center; color:#151B8D"><big style="font-weight: bold;"><big><big>
Hadoop Paper Survey
</big></big></big></div> <div style="text-align: center; color:#7E2217"><big style="font-weight: bold;"><big>
From IEEE & ACM  until 2009 11 18
</big></big></div>
}}}
[[PageOutline]]

 = 1.  在異質環境下的動態排班系統 =

 A Dynamic MapReduce Scheduler for Heterogeneous Workloads 

 * 基於異質環境下，建立三種排班方式
 * 用模擬的方式，宣稱用在hadoop後能比不用快30%

  = 2.  設計一個高效能的雲端平台 = 

An New Data Parallelism Approach with High Performace Clouds

 * 宣稱設計更為簡化，因此效能較好
 * 號稱某些case比hadoop 快兩倍

 = 3.  parallel closed cube 演算法 =

A Parallel Algorithm for Closed Cube Computation

 *  parallel closed cube 是個不容易瞭解的演算法，而作者設計了一個能用在MR平台下的parallel closed cube 演算法
 * 並宣稱實驗結果有得到好處

 = 4. 用雲端運算處理衛星資料 =

Cloud Computing for Satellite Data Processing on High End Compute Clusters

 * 用高檔設備透過Hadoop處理衛星資料
 * 此篇數據比較了 有用MapReduce 以及沒用的差別 （作者說程式沒有差很多）

 = 5. 一個整合計算與資料管理的系統 = 

Clustera: An Integrated Computation And Data Management System

 * 介紹一個資料管理系統，提供兩個特點
   * 特點一為有延展性並且有能力於掌控大範圍Job 資料，並用最小的sql查詢語法減少I/O
   * 特點二為用最新的軟體建立區塊，如此可以瞭解在應用伺服器或關連資料庫內的效能、使用率等資料
 * 最後用 clustera 跟 Hadoop、 condor 比較
 
 = 6.用sector做高效能資料探勘 = 

Data Mining Using High Performance Data Clouds

 = 7.探勘日誌來偵測大範圍的系統問題 =

Detecting Large-Scale System Problems by Mining Console Logs

 * 透過探勘log檔，來偵查出有可能出現的系統runtime problem
 * 實驗於 Hadoop日誌與DarkStar線上遊戲
 
 
 = 8. Disco 的實驗論文 =
 
DisCo: Distributed Co-clustering with Map-Reduce

 = 9. Sphere 的論文 = 

Exploring Data Parallelism and Locality in Wide Area Networks

= 10. 用Hadoop來算使用者習慣 = 

Extraction of User Profile Based on the Hadoop 

 * 文章架構與實驗方法類似 icas
 * 此篇用hadoop 來找使用者的習慣，其實只有在做map reduce 字數統計而已
 * 也有畫出單一台與多台hadoop的效能比較，由於他們只有80MB的資料，因此一台最快，三台最慢
 * Wireless Communications, Networking and Mobile Computing, 2009. WiCom '09. 5th International Conference on
 

= 11. 解決hdfs小檔的一些問題 =
 * hdfs 由於要支援海量的資料，因此每個block約64mb，然而小檔案會有一些效能瓶頸的問題
 * 對於如果有設定quota（ex: N=7,S=6G）的話，那如果超過個數或容量任一的話，就會造成錯誤，而mapreduce run到一半的話因為quota超過就會失敗
 * 本篇利用一個支援hadoop的壓縮方法"harballing"來使hdfs更好使用
 * 結果顯示，利用他們的方法模擬出可以減少 metadata 1/42的使用率