Enterprise Watch
最新ニュース

重複排除は効果があるのか?シマンテックの「PureDisk」を見る【後編】


 企業内外で増えるデータを効率的にバックアップ/リカバリするソリューション「Veritas NetBackup PureDisk 6.5(以下、PureDisk)」。前回はその大まかな特徴と構成例を紹介したが、今回はPureDiskの効果的な利用法や具体的な効果などを説明する。


IT管理者を悩ます、リモートバックアップの負担

 ITシステムを運用している管理者にとっては、システムを正常に動かすためには、バックアップは必須のものとなっている。データセンターが1カ所だけならバックアップもそれほど面倒ではないが、実際には支店、支社、エリア本社などにサーバーがあり、それらのバックアップを行わなければならないのが普通だ。今の企業では、そうした支店や支社のバックアップをリモートで行えるようにしているところも多い。しかし、リモートでのバックアップは、毎回のバックアップにかかる時間がばかにならない。ブランチが多いと、バックアップだけで1週間の作業が終わってしまう可能性もある。

 リモートバックアップをスケジュールで自動処理させればそれほど手間もかからないといわれるが、ネットワークの帯域が細かったり、日中は業務にネットワークを空けたりするため、バックアップの多くが夜中の作業になってしまう。また、夜中にバックアップを仕掛けて帰宅し、翌朝に完了しているはずだったのに、トラブルが起こりバックアップが途中で中断している、といったこともある。何よりも問題なのは、バックアップは正常にできていても、リストアが簡単に行えないことだろう。リストアを要求された際に時間がかかってしまっては、エンドユーザーからのITシステムに対する満足度が低下することにもなりかねない。

 PureDiskは、こうしたリモートバックアップ環境についても、効果的に利用できるのだという。


PureDiskのレプリケーション

PureDiskでは、リモートオフィスから、大規模なデータセンターのバックアップまで、さまざなシーンで利用できる
 PureDiskのストレージプールが複数配置されている場合、ストレージプール間でデータの複製をするように設定しておけば、別のストレージプールに接続されている支店や支社のサーバーに存在するファイルも重複排除の対象となる。このため、リモートオフィスを含めたITシステム全体で効率的なバックアップを行うことが可能になるのだ。

 例えば、営業の資料などを、共通して各拠点で利用する、というのはよくあるケースだろう。こうした資料をある企業が関西拠点で使い、ファイルサーバーに保存したとする。そして、管理者が本社データセンター(東京)からリモートバックアップでデータを吸い上げようとした場合、データセンターにまったく同じファイルがあれば、重複排除が行われるため、データは実際にはWAN上を流れない。また、一部が更新された場合は、更新された部分のみが転送される。こうした仕組みのため、重複排除製品を未導入の場合と比べると、大幅に帯域を削減できるメリットがある。

 リストアに関しても、管理者が行えるのはもちろん、エンドユーザー向けにWindows エクスプローラライクなGUIを提供。エンドユーザーが自らリストアを行えることから、満足度の向上や、管理者の工数削減を実現可能という。

 また、本社-支店間だけでなく、災害対策などでリモートサイトへのレプリケーションを行う場合にも同様のメリットがあるという。通常、こうした拠点間のレプリケーションでは大量のデータを送信するため、広帯域かつ高価なWAN回線が必要になることが多い。しかし、PureDiskのような重複排除製品を導入すれば、初回のレプリケーションさえ済ませてしまえば、従来よりも数段細いWAN回線で日常の作業を済ませてしまえるのだ。コスト削減が叫ばれる現在の環境に、非常に適したソリューションといえるだろう。

 一方で、小規模な拠点が複数散在するような場合にも、PureDiskは効果的に導入できる。これまで説明してきたように、PureDiskでは実際の重複排除作業は、ストレージプールではなく、バックアップ対象サーバーにインストールされたエージェント側で行われ、メタデータと更新されたデータのみをストレージプールとやり取りする仕組みを採用している。

 同時に、エージェントでは、データの圧縮や暗号化も行っているため、ネットワーク転送量をさらに削減することも可能。また、ネットワークの帯域自体をコントロールしているため、業務が集中する昼間のトラフィックをバックアップ作業が圧迫しないようになっている。このため、例えば、関西拠点は大阪支社にのみストレージプールを導入し、そこに近隣の支店からのバックアップデータを吸い上げて一元的に管理する、といった利用法も可能になるのである。


PureDiskがNetBackupファミリになったことで、バックアップのトータルソリューションが提供できるという
 PureDiskがバックアップの対象としているサーバーは、Windows以外には、Linux(Red Hat、SUSE)、Solaris、AIXまたは、HP-UXなどがある。また、Microsoft Exchange ServerやMicrosoft SQL Serverなどのサーバーアプリケーションに対しては、専用のエージェントソフトが用意されている。これらのソフトを利用すれば、各アプリケーションのデータをバックアップすることができる。

 なお、PureDiskがNetBackupファミリになったことで、PureDiskのバックアップデータを、NetBackupを使ってテープにエクスポートすることもできる。これにより、Disk To DiskのバックアップしかできなかったPureDiskが、テープメディアを使った長期アーカイブも可能になった。また、時間のかかる初期バックアップは、NetBackupを使ってテープメディアで行い、そのテープを本社に持ち込み、PureDiskに統合することもできる。これにより、初期バックアップの時間を短縮し、その後はオンラインで短時間にバックアップすることが可能になる。


PureDiskの重複排除が効くデータは

導入に際した重複排除の効果を示したグラフ
 PureDiskの重複排除は、どのようなデータでも威力を発揮するというわけではない。前編で説明したように、ファイルをセグメントに分けてフィンガープリント(FP)をつけているため、データベースなどはあまり得意とはいいがたい。しかし、支店や支社のサーバーに多く存在するファイルサーバーに保存されているOffice文書などは、重複排除率が非常に高くなる。

 PureDiskでは、重複データは最初の完全バックアップの開始時に除外される。右のグラフのy軸を見ると、最初のバックアップ時(1日目)に転送されたデータ量が、元のソースデータ量の10~40%の範囲であることがわかる。つまり、これら10クライアントのデータ全体の60~90%は重複データであったため、ネットワークを介して転送したり、バックアップメディアに書き込んだりする必要がなかったのである。また5日目もしくは6日目までには、すべてのバックアップクライアントにおいて、圧縮されていない完全バックアップと比較すると、非常に高い最適化レベルが達成されている。


転送されるExchange Serverデータ(緑)と元のソースボリュームデータ(紫)を、34日間比較したグラフ
 また、Exchange Serverの環境を使った例からも、安定した重複排除効果がわかる。転送されるExchange Serverデータ(緑)と元のソースボリュームデータ(紫)を、34日間比較したのが右のグラフだ。最初の23日間は安定した期間が続き、保護されるソースデータ量と1日に転送されるデータの量は比較的一定の状態に保たれており、平均は0.5%前後で推移している。24日目から30日目までの間に、ユーザーがExchange Serverメールボックスを追加したため、保護するソースデータが急増し、1日に転送されるデータも急増した。しかしこれは一時的なものにとどまり、33日目以降、ソースボリュームと1日に転送されるデータは、新しい一定の平均値に下降している。PureDiskではこのように、システムの変更に即座に対応し、ITシステムへの影響を最低限に抑えられるという。

 さらにシマンテックによれば、VMwareなどの仮想ドライブのバックアップにも重複排除の効果が現れるとしている。

 もちろん、PureDiskの重複排除によりどの程度のデータが削減できるかというのは、導入するユーザーの環境で異なる。ただ、同社が公開しているものによれば、データの重複排除率が99.79%となり、元データが714.04GBだったのに対し、日々のデータ転送量は1.5GBにまで削減されている。

 ここまでデータの重複排除できるかどうかは、ユーザーの環境によっても異なるが、ファイルサーバーなどのバックアップに関しては、90%近い排除率を示すことができるようだ。


シマンテックが提供しているPureDiskのサンプル例。重複排除によって、ここまでバックアップデータが小さくなる テープと比べてもPureDiskのバックアップは、これほど小さくなる

PureDiskの価格は?

 ここまで見てきたように、PureDiskを利用することで、バックアップ/リストアの効率化が実現できる。そこで、導入するユーザーにとって気になるのが、PureDiskの価格だろうが、シマンテックが直接ユーザーに販売しているわけではないので、価格がわかりにくい。実際には、サーバーのハードウェアも必要となるため、SIerからシステムとして販売されることもあり、余計にわかりにくくなっているようだ。一応、参考価格例としては、135万円という最小構成価格は出ているが、あくまでも最小限のシステムということで、この価格で導入される例はないようだ。

 筆者としては、可能なら、モデル事例を出して、どのくらいのコストがかかるかを明示してほしいものだと思う。魅力的なシステムであるのだから、そうすれば、導入事例も増えるのではないだろうか。



URL
  株式会社シマンテック
  http://www.symantec.com/ja/jp/

関連記事
  ・ 重複排除は効果があるのか?シマンテックの「PureDisk」を見る【前編】(2009/03/18)


( 山本 雅史 )
2009/03/19 10:49

Enterprise Watch ホームページ
Copyright (c) 2009 Impress Watch Corporation, an Impress Group company. All rights reserved.