Enterprise Watch
最新ニュース

重複排除は効果があるのか?シマンテックの「PureDisk」を見る【前編】


 昨今のデータ量急増に伴い、増えるデータをどうバックアップ/リカバリするかは、企業にとっての大きな悩みの種になっているが、それを解決する手段として重複排除技術が注目を集めるようになった。各社とも、こぞって製品をリリースしているが、旧Veritas時代からバックアップソリューションを提供してきたシマンテックも、「Veritas NetBackup PureDisk 6.5(以下、PureDisk)」を用意し、企業の課題解決に寄与しているという。そのPureDiskについて、前・後編の2回にわたって特徴を紹介しよう。


NetBackupファミリに追加されたシマンテックのPureDisk

NetBackupが得意とする重複排除は、さまざまなシーンでメリットが出る

PureDiskの重複排除テクノロジーは、リモートオフィスでも、データセンターのバックアップでも大きなメリットがある
 シマンテックのPureDiskは、旧Veritas(Symantecと合併)が販売していた、同名のバックアップソリューションの進化形だ。PureDiskでは名称の通り、バックアップソフトとして有名なNetBackupファミリとして、ほかのNetBackupとの連携を重視した改良が行われている。

 製品自体は、データをバックアップするPureDiskサーバーソフトと、バックアップされるサーバーにインストールするクライアントソフト(以下、エージェントと呼ぶ)から構成される。

 このうちPureDiskサーバーソフトは、アプリケーションだけでなく、OS自体も内包している(OSは、SUSE Enterprise Linuxをベースとした独自のOS)。このため、PureDiskサーバーを構築するには、SUSE Linuxが動作するサーバーを用意すればいい(Symantecの米国Webサイトには互換性リストが掲載されている)。一方エージェントは、Windows 2000 Server(SP4)、Windows Server 2003、Linux(Red HatおよびSUSE)、UNIX(IBM AIX、Solaris、HP-UX)、Mac OS Xなどをサポートする。

 PureDiskサーバーでサポートされているストレージは、SUSE Linuxでサポートされているストレージがそのまま利用できる。つまり、内蔵のSATA/SASなどのHDDだけでなく、iSCSIやFC(ファイバチャネル)などのSANストレージを使用することができる。ただし、1つのPureDiskでカバーできるバックアップ容量は、最大8TBとなっている。

 なお、PureDiskはソフト製品ではあるのだが、シマンテックはPureDiskを直接販売しておらず、多くの場合はシステムインテグレータやパートナー企業から購入することになる。このため、ほとんどのケースでは、あらかじめPureDiskサーバーをインストールしたハードウェアごと納入されるという。


重複排除機能を持つPureDisk

重複排除は、データを細かなセグメントに分けて行う。まず、セグメントが重複しているかどうかを判断するために、各セグメントにはフィンガープリント(FP)というマーキングがつけられる。PureDiskでは、FPを比較してデータが更新されたかどうかを判断しているのだ
 PureDiskは前述した通り、データをバックアップするサーバーにエージェントをインストールして、実際にデータを保管するPureDiskのサーバー側(以下、PureDiskストレージプールと呼ぶ)にバックアップする、といった構成をとる。実際の重複排除はエージェント側で行われ、最初にバックアップを取った後は、変更されたデータだけをPureDiskストレージプールへ送る。

 つまり、PureDiskのバックアップにおいては、フルバックアップ、差分バックアップといったモードはない。見かけ上はフルバックアップなのだが、実際は変更された部分だけをバックアップする差分バックアップ的な動きになっている。

 また、PureDiskの重複排除機能は、ファイル名などで同じファイルかどうかをチェックしているわけではない。ファイルの内容をチェックして、メタデータを作成している。このため、ファイル名の異なる同じファイルを重複排除することができる。具体的には、ファイルを固定長のセグメントに小分けして、フィンガープリント(FP)を取得。それをメタデータとしてデータベースに記録している。

 この機能により、ファイルが更新された場合でも、FPが記録されたデータベースをチェックして、更新されたセグメントだけを新たにPureDiskストレージプールにバックアップする。これにより、バックアップとしてPureDiskストレージプールに転送されるデータ量を劇的に少なくしている。


PureDiskの構成と主要モジュール

 PureDiskのストレージプールは、以下の4つの主要モジュールから構成されている。

  1. Storage Pool Authority

  2. メタベースエンジン(Metabase Engine:MBE) 複数構成可能

  3. メタベースサーバー(Metabase Server:MBS)

  4. コンテンツルータ(Content Router:CR) 複数構成可能


 1.は、PureDiskのポリシーやストレージを管理しバックアップ・リストアジョブを実行する部分。管理者は、Web GUIからアクセスし、PureDiskを管理することになる。

 PureDiskでは、前述したように、ファイルを固定長のセグメントに小分けしてFPを取得。それをメタデータとしてデータベースに記録している。この役目を担うのが、2.のMBEと3.のMBSで、2.はメタデータを保存する部分、3.は2.へのクエリーを管理するデータベースとなっている。3.は各ストレージプールに1つだけ存在するが、2.については、データの増加に伴って、後から追加することも可能。なおメタデータは、バックアップ対象データが更新されなければ増えることはない。

 4.のCRは、バックアップしたデータを実際に保存する領域のこと。ここに書き込まれるデータは、重複排除処理が行われたものだけになるため、必要最小限にとどめられる。CR1つあたりの最大容量は、重複排除後で8TB。CRも、2.と同様、保存データが増加するにあたって、後から追加することも可能なほか、保存されているデータは、新規CR追加後に分散することができる。CR追加以降のバックアップデータは、全CRに分散されて保存される。


各サーバーにインストールしたエージェントが、重複排除したデータをストレージプールに転送する

PureDiskの構成例
 バックアップを実行する際は、バックアップ対象のサーバーにインストールされたエージェントソフトが、2.のカタログを参照して、まだストレージプールに存在しないデータのみを4.へ転送する仕組み。同時に、2.のカタログを最新の状態に更新する。

 このPureDiskの構成で特徴的なのは、1.~4.のモジュールを別々のサーバーで運用できること。これにより、大きなデータ量に対応できる、スケーラブルなバックアップサーバー群の構築が可能になっているのだ。もちろん、1台のサーバーのみでPureDiskストレージプールを構築・運用することも可能で、2.と4.を拡張できるようにしているので、小さく始めて、システムを大きくしていく、といった運用も行えるという。


 ここまで、PureDiskの大まかな機能と構成の例などを説明した。次回は、PureDiskの効果的な利用法や具体的な効果などを説明する。



URL
  株式会社シマンテック
  http://www.symantec.com/ja/jp/

関連記事
  ・ 重複排除は効果があるのか?シマンテックの「PureDisk」を見る【前編】(2009/03/18)


( 山本 雅史 )
2009/03/18 12:35

Enterprise Watch ホームページ
Copyright (c) 2009 Impress Watch Corporation, an Impress Group company. All rights reserved.