Enterprise Watch
バックナンバー

ユニークな手法で非重複化を行うData Domainのデータプロテクションストレージ【後編】


データドメイン株式会社 シニアシステムズエンジニアの村山雅彦氏
 D2D(Disk to Disk)によるバックアップが浸透しつつある今日、何世代ものバックアップデータを安価に保管する手段としてディスクストレージの非重複化(de-duplication)機能に注目が集まっている。非重複化機能は、ディスクストレージに保管されているデータの中から重複する部分を徹底的に取り除くことで実質的なデータ容量を大幅に削減する。非重複化機能を備えたディスクストレージは、すでにいくつかのベンダーから登場しているが、その先駆者ともいえる存在がData Domainの製品だ。

そこで、データドメイン株式会社 シニアシステムズエンジニアの村山雅彦氏に、Data Domainの技術詳細と最新動向をお聞きしてきた。後編では、Data Domain製品ならではの高度なデータ保護技術と災害対策(DR)に欠かせないレプリケーション機能について解説していく。


IAサーバー上に独自のData Domain OSを搭載したアプライアンス

Data Domainアプライアンスシリーズのラインアップ。リモートオフィス向けのDD120、多くの企業をターゲットにしたDD500シリーズ、大規模のデータセンターを視野に入れたDD690などから構成されている
 Data Domainは、データの確実な保管を目的とした『データプロテクションストレージ』に特化して製品ラインアップを構成している。その中核となる製品がData Domainアプライアンスシリーズだ。Data Domainアプライアンスは、ストレージシステム全体を制御するコントローラとディスクシェルフが統合されたアプライアンス製品である。保管対象となるデータの総量、将来性を踏まえたスケーラビリティ、バックアップ時のスループットなど、顧客のさまざまな要件に合わせ、DD120、DD500シリーズ、DD690など、いくつかの選択肢が用意されている。特に中上位モデルではディスクシェルフの増設にも対応し、DD565は2台、DD580は3台、DD690は6台までのディスクシェルフを追加することで物理ディスク容量を大幅に拡張できるようになっている。

 Data Domainアプライアンスのコントローラ部は、すべてIAサーバーがベースとなっている。大手ベンダーではハードウェアからすべて作り込んでいるケースもあるが、Data Domainはインテル製マザーボードを搭載したIAサーバーをハードウェアとして使用し、その上にLinuxベースの専用オペレーティング・システム(Data Domain OS)を載せている。Data Domain OSは、Linuxのカーネルを持ちながらも、そこに独自のファイルシステムや非重複化機能、データ保護機能、後述するレプリケーション機能などを作り込んでいる。こうした汎用プラットフォームの上に独自のソフトウェアを載せていくアプローチは、とりわけアプライアンスの世界では多く見られる形態だ。

 つまり、Data Domainならではの独自性は、Data Domainアプライアンスの中でも、とりわけソフトウェア部分のData Domain OSに凝縮されていることになる。これから説明するように、Data Domain OSは、データプロテクションストレージという目的を果たすために、通常のプライマリーストレージとは一線を画したデータ保護アーキテクチャが採用されている。そのひとつがエンドツーエンドのベリフィケーション機能だ。


データ保護を念頭に置いて徹底的に設計されたData Domain OS

 プライマリーストレージ向けとして開発された製品のほとんどは、データ書き込み時にあまり厳重なチェックを行っていない。ホストコンピューター側のOSが書き込み操作を行うと、ストレージはその命令を受けて実際にデータを書き込み、即座に書き込み完了の応答を返す。基本的に“当然しっかりと書かれているだろう”という性善説のもとにデータの書き込みが実行されているわけだ。もちろん、ほとんどのケースではきちんと書かれているはずだが、非常に低い確率とはいえ書き損じが生じる可能性もある。つまり、書き込まれたデータが本当に正しいという保証はない。


Data Domain OSのデータ保護原理。多くのストレージでも採用されているRAID-6や不揮発メモリー(NVRAM)によるキャッシュデータの保護、追記型のジャーナリングファイルシステムはもちろんのこと、エンドツーエンドのベリフィケーション機能といった独自の機能も搭載されている。とにかくデータを失わないことを前提として開発されたアーキテクチャということだ
 プライマリーストレージは、高いパフォーマンスでタイムリーにデータを読み書きすることが本来の目的なので、こうした性善説に基づくアーキテクチャを採用しなければ十分な性能を確保できないのも事実だ。しかし、データプロテクションストレージでは、正しいデータを常に保持していることが何よりも重要なので、データの保全性を最大限に高めなければならない。そこで、Data Domain OSでは、データの書き込み終了後にそのデータを実際に読み出してベリファイ操作を行う。実際に書きたかったデータと書き込み後に読み出したデータのフィンガープリント値を比較し、これらが同一であれば正常に書き込まれていると判断する。もし、一致していない場合にはRAIDのレイヤでデータの修復を試み、それでも修復できなければ管理者にすばやく通知する。

 また、ファイルシステムのレイヤでもチェックを行う。ファイルシステムは、ディスク上に書かれたデータがどこにあるかを指し示す情報(メタデータ)を含んでいる。このメタデータが破損していれば、ディスク上に正しいデータが物理的に書き込まれていたとしても、そのデータにたどり着くことができない。Data Domain OSは、ファイルシステム(Data Domainファイルシステム)のレイヤからもチェックを実行し、物理的に書き込まれたデータに対して確実にアクセスできる状態を維持する。

 「Data Domainは、バックアップデータを最も重要なものとしてとらえています。バックアップデータは、プライマリーストレージに重大な障害が発生したときに使用される『最後のとりで』となるものですから、絶対に失われてはいけないのです。このため、Data Domain OSには、現時点で実装できるデータ保護策は最大限に盛り込まれています。例えば、多くのストレージで採用されているRAID-6や不揮発メモリー(NVRAM)によるキャッシュデータの保護、追記型のジャーナリングファイルシステムはもちろんのこと、エンドツーエンドのベリフィケーション機能といった独自の機能も搭載しています。」

 「また、ベリフィケーション後にデータが破損する可能性も考慮し、ファイル単位での定期的なスクラビングやRAIDレイヤでのストライピングチェックなども実施しています。とにかくあらゆるタイミングでデータチェックを何度も繰り返し、万が一にもエラーが見つかったらすぐに修復を試みます。もし修復できなければ管理者に通知し、バックアップをとり直してもらえるように促します。事前に問題が分かればいくらでも対処のしようがありますが、プライマリーストレージの重大な障害によってIT管理者が最も困っているタイミングでバックアップデータを読み出せないようでは、日々バックアップを実施している意味さえなくなってしまいます。だからこそ、データを書き込んでから消去するまでの間、常にそのデータの保全性を維持することが重要なのです。(以上、村山氏)」


BCPの一環として注目される遠隔地へのデータレプリケーション

 2001年9月11日のアメリカ同時多発テロ事件などを教訓に、大規模災害が発生しても迅速に業務を復旧できるようにする事前の行動計画、いわゆるBCP(事業継続計画)が注目されるようになった。BCPの対象となる分野は多岐にわたるが、特にストレージに着目した場合、基本的にはデータの複製をローカルサイトから十分に離れたリモートサイトに配置し、ローカルサイトが被災時にはリモートサイトのデータを使って業務を速やかに復旧するという手順が取られる。リモートサイト側のストレージには、業務を復旧するに足るデータが常に置かれていなければならないため、通常はローカルサイトとリモートサイト間をWAN回線で接続し、ローカルサイト側からリモートサイト側のストレージに向けてデータの複製(リモートレプリケーション)を実行する。

 このように、離れたサイト間でデータレプリケーションを実施するには、大容量のデータをスムーズに転送できるだけの高速なWAN回線が求められる。しかし、そのためには莫大(ばくだい)な回線コストがかかる。こうした理由から、これまでリモートレプリケーションを実施できていたのは、ITシステムに大きなコストを投入できる大企業がほとんどだった。近年では、WAN回線のトラフィックを圧縮、最適化する帯域制御ソリューション(その多くはアプライアンス型)が普及し、WAN回線の運用コストをかなり抑えられるようになったが、セカンダリーストレージを対象としたリモートレプリケーションにおいて、その究極ともいえるものがData Domainのレプリケーション機能だ。


非重複化技術とインライン処理でリモートレプリケーションを大幅強化

 Data Domainアプライアンスは、Data Domain Replicator(DD Replicator)ソフトウェアのライセンスを追加することで、レプリケーション機能が利用可能になる。ローカルサイトとリモートサイトにそれぞれDD Replicatorを追加したData Domainアプライアンスを配置し、WAN回線を介してローカルサイト側からリモートサイト側にバックアップデータを転送する。1回目の初期バックアップ時にはすべてのデータがWAN回線で転送されるものの、2回目以降には徹底的に非重複化が行われた最低限のデータしか流れない。その圧縮率は、汎用的な帯域制御ソリューションを大きく上回り、典型的なフルバックアップ時でおおむね50倍以上に達する。つまり、1TBのバックアップデータを転送するために、実質20GBのデータしかWAN回線に流れない。当然、WAN回線の帯域幅そのものを大きく削減できることから、例えばインターネットVPNのような安価なネットワークを利用してリモートレプリケーション環境を構築できるようになる。

 「Data Domainアプライアンスのレプリケーション機能は、基本的にオプション扱いなのですが、ワールドワイドでは全体の6割、日本国内では5割以上にあたるお客さまが、DD Replicatorを最初から追加した形で導入されています。目の前にあるセカンダリーストレージのデータ保管コストを徹底的に削減するのはもちろんのこと、さらにリモートレプリケーションまでをしっかり視野に入れて当社の製品を選択されているお客さまが多いことがうかがえます。日本国内でも、リモートレプリケーションの導入例が少しずつ増えてきています。例えば、あるお客さまは、3TBのフルバックアップデータを毎日リモートサイト側に転送していますが、Data Domainのレプリケーション機能によって、たった2MbpsのWAN回線でリモートレプリケーションを実現しています。(村山氏)」


Data Domainアプライアンスを利用したリモートレプリケーション。WAN回線には非重複化済みのデータのみが流れるため、回線帯域の使用率を大幅に削減できる。Data Domainがサポートするレプリケーションの基本形は、筐体内すべてのデータを複製する一方向レプリケーション、互いが持つデータを複製しあう双方向レプリケーション、複数の筐体または複数拠点の筐体が持つデータを1カ所に複製するN対1レプリケーションの3つだ。左図は、N対1レプリケーションの構成例となる

Data Domainアプライアンスは、バックアップジョブの中でデータバックアップ、非重複化、レプリケーションのすべてを同時に実行する。このため、バックアップジョブが完了したときには、レプリケーションも含めてすべてのジョブが完了していることになる。災害対策を確実に行えている状態(DR-Ready)に到達するまでの時間を短縮できることから、リカバリポイント目標(RPO)の改善につながる
 Data Domainのレプリケーション機能は、その優れたデータ圧縮効果だけでなく、レプリケーションそのものをインラインで処理できる点も重要なポイントだ。前編でも説明したように、Data Domainアプライアンスは、データのバックアップ時に非重複化を行いながら書き込んでいくが、それと同時にリモートサイト側のData Domainアプライアンスにも非重複化を終えたデータをほぼリアルタイムに送り込んでいく。このため、バックアップウインドウの範囲内にデータバックアップ、非重複化、レプリケーションのすべてが収まることになり、災害対策を確実に行えている状態(DR-Ready)に到達するまでの時間を大幅に短縮できる。これは、どれだけ直前の地点までデータをさかのぼれるようにするかを表す指標、いわゆるリカバリポイント目標(RPO)の改善につながる。


ニアラインストレージへと幅を広げていくData Domainアプライアンス

 現時点で、顧客の大半はバックアップ用途でData Domainアプライアンスを導入している。その一方、プロトコルとしてファイル単位でのアクセスが可能なCIFSやNFSをサポートしていることや、大容量のデータを非常に安価に保管できるコスト効率の良さなどが注目され、ファイルサーバーのような利用形態に幅を広げようとする顧客も登場している。もちろん、ファイル単位で頻繁にデータを読み書きするプライマリーストレージとしてのファイルサーバーを想定しているのではなく、普段はアクセスすることがない過去のファイルをときどき参照するような、ニアライン用途に限定した使い方だ。

 「Data Domainアプライアンスは、そもそもデータバックアップを主眼において設計されたセカンダリーストレージですので、通常のファイルサーバーとして利用することは想定していません。同時に扱えるストリーム数は、バックアップ用途には十分といえる数十から100程度をターゲットにしていますので、その範囲内に収まるニアライン用途であれば高いパフォーマンスを発揮するでしょう。近年、データの保管コストを下げる目的から、ファイルサーバーを階層化してILM(Information Lifecycle Management)のようなストレージ環境を構築している企業も増えつつあります。そうした環境の中で、最もアクセス頻度の低いオンラインデータをData Domainアプライアンスに保管することで、データ全体の保管効率を最大限に高めることができます。(村山氏)」



 筆者は仕事柄、ストレージ製品を発売するベンダーのみならず、製品を実際に導入・運用しているエンドユーザーに取材する機会も多い。このとき、プライマリーストレージには有名各社の製品を選びながらも、バックアップ用のセカンダリーストレージにはあえてData Domain製品を選択するユーザーも実際に目にしてきた。プライマリーストレージからセカンダリーストレージ、テープストレージに至るまで、あらゆるセグメントのストレージ製品をトータルに取りそろえる大手ベンダーのようなアプローチがある中で、データプロテクションストレージに特化して製品を展開し、そのセグメントの市場でシェアを取りにいくData Domainのようなアプローチもある。世界的に景気が冷え込んでいる今日、特定のセグメントに対して、そのセグメントが本当に求めているものを確実に売り込んでいくという姿勢は、減速する経済情勢の中で戦い抜くための大きなヒントになるかもしれない。



URL
  データドメイン株式会社
  http://www.datadomain.com/jp/

関連記事
  ・ データドメイン、重複排除ストレージの最上位製品「DD690」(2008/10/02)
  ・ ユニークな手法で非重複化を行うData Domainのデータプロテクションストレージ【前編】(2009/01/23)


( 伊勢 雅英 )
2009/01/30 08:59

Enterprise Watch ホームページ
Copyright (c) 2009 Impress Watch Corporation, an Impress Group company. All rights reserved.