wiki:lustre_failover
close Warning: Can't synchronize with repository "(default)" (Unsupported version control system "svn": libp11-kit.so.0: failed to map segment from shared object: Cannot allocate memory). Look in the Trac log for more information.

Version 2 (modified by chris, 17 years ago) (diff)

--

Lustre's Failover Mechanism

  • 在 Lustre 中,並沒有像 GPFS 本身就有提供 replication data 寫入的機制,因此必須搭配 DRBD 來達到 replication data 的機制。 並且使用 Heartbeat 來監控電腦是否當機、斷電、網路是否可以連線。一旦發現錯誤,可即時通知 Lustre 的相關 daemon 啟動所謂的 failnode,自動將資料的讀寫轉移到 failnode 上的 OST。
  • 這個部分首先要釐清的是 heartbeat 如何結合 lustre ,是如何告知 lustre 的 daemon 來觸發備援切換的機制。