「可変長セグメント」「インライン」「CPU依存」－米EMCが語るデータ重複除外に大切な要素

米EMC エグゼクティブバイスプレジデント、グローバルセールスバックアップ・リカバリ・システムズ（BRS）部門のデビッド・シュナイダー氏

　EMCジャパン株式会社は11月6日、米EMC エグゼクティブバイスプレジデント、グローバルセールスバックアップ・リカバリ・システムズ（BRS）部門のデビッド・シュナイダー氏の来日に伴い、ストレージの重複除外技術に関する説明会を開催した。

　EMCは、2006年に米Avamar Technologies、2009年7月に米Data Domainを買収し、バックアップソリューションの強化を図っている。両社ともに、過去にバックアップ済みのデータを取り除いて保存する重複除外技術が特徴の企業だ。一口に重複除外といっても、どの時点で重複除外を行うかなど、その種類はさまざまある。Data Domainの買収に関してシュナイダー氏は「今後の両製品の位置づけは慎重に行っていくつもりだが、確実にいえることは、両製品をラインアップすることで、重複除外に関するユーザーのさまざまなニーズに広範に応えられるということだ」と述べている。

　重複除外技術は、D2T（Disk to Tape）のバックアップからD2D（Disk to Disk）のバックアップへと変遷する時代の要請に応えて登場した技術である。テープが主流だったころ、バックアップ＆リカバリは非常に手間のかかる作業だった。ソースの容量がどれくらいだろうと、バックアップデータはそれ以上に大きいものとなり、加えて、テープをいかに保管するか、その物理的な問題、セキュリティの問題もはらんでいた。だが、「安価にバックアップを行うという意味では、テープしか選択肢がなかった時代が続いていたのだ」（同氏）。

　それが、数年前から次第にD2Dが注目されるようになった。その背景にあったのが、バックアップにおける「圧縮技術」と「重複除外技術」だとシュナイダー氏は語る。「どの企業もストレージ容量の増加に悩んでいた。バックアップやリストアに丸々1日を費やすなんて話も珍しいものではなかった。重複除外技術を利用すれば、大量の元データを経済的に迅速にバックアップすることが可能になった」。

　冒頭でも述べたが、重複除外にはさまざまなキーテクノロジが存在する。何を実現するものなのか、大枠に違いはないが、その実現技術には製品ごとに微妙な違いがあるのだ。同氏は今回、Data Domain製品の詳細に触れ、その中でも「可変長セグメント」「インライン型」「CPU依存のアーキテクチャ」が欠かせない要素だと紹介した。

　重複除外技術は、データをある一定のサイズにセグメント化して、セグメントごとに生成したフィンガープリントによって重複判定を行うのが一般的だが、製品によっては、このセグメントを固定長でおこなうもの、可変長で行うものが存在する。「固定長セグメント」では、例えば4KBほどにデータを分割する。ではこの場合、元データに微妙な変更が加えられ、各セグメントの間に新しいセグメントが割り込むなどの変化があったらどうだろう。

　重複除外技術は一般的にディスク上からセグメントのフィンガープリント情報をすべて読み出し、しらみつぶしに比較していく方法を採る。そのためセグメントの並び順が変わっただけで、データの内容にそれほど変わりはなくても、重複を判定できなくなる可能性があるのだ。一方で、Data Domain製品の「可変長セグメント」ではセグメントを4KB～12KBの範囲で自在に変えることが出来るため、こうした自体にも柔軟に対応できるのだという。

　加えて「インライン型」も欠かせない。これはどのタイミングで重複除外を行うかに関する話だ。重複除外には大きく、バックアップ前に行う「インライン型」と、バックアップ処理後に行う「ポストプロセス型」の2通りが存在する。「インライン型」はストレージに保存する前に重複除外することで、リアルタイム性を確保しているのが利点で、その分、大きなスループットを必要とするのが課題。一方、「ポストプロセス型」では、バックアップ中にスループットの低下を起こさないのが利点だが、重複排除がいつ終わるか分からない怖さがあり、リカバリやレプリケーションなどの処理が多いと、プロセスのコンテンションが悪化するという問題を抱える。

　「インライン型であれば、バックアップ前に重複除外が終わるので、重複除外によるほかの業務への支障がない。シンプルで予測可能な良さがあり、ユーザーのさまざまなバックアップニーズに応えるために、インライン型を提供できることがベンダーとして欠かせない要素になる」（同氏）。

　課題は、いかにリアルタイム処理によるスループット低下を回避するかだ。ここで重要になるのが最後の「CPU依存のアーキテクチャ」であるという。

　ディスクの中身をしらみつぶしに読み出して重複判定を行う際、たとえ各セグメントをより小さくしたフィンガープリントであっても、ディスクへのアクセスがあれば、必然的にディスクI/Oの性能が課題となってくる。そのため、他社製品ではスループットを挙げるためにHDDの台数を増やす必要があったりするのだ。しかし、これではストレージコストを削減するための重複除外が本末転倒になってしまう。

　一方でData Domain製品では、ディスク性能に依存しない独自技術を実現している。「サマリーベクター」や「ローカリティ－プリフェッチング」といった技術で、弊紙連載・ストレージ最前線の『ユニークな手法で非重複化を行うData Domainのデータプロテクションストレージ【前編】』に詳しいが、簡単にいってしまえば、「重複判定の際に、ディスクを極力のぞかないで済むようにし、CPUやメモリの性能に依存してスループットを確保できるようにしているのだ」（同氏）。

　これがData Domain製品の良さで、まもなく訪れる次世代のバックアップにも欠かせない要素だという。

　「バックアップ＆リカバリ市場は大きく動いている」。同氏はそう語る。D2Dへの移行が進み、重複除外といった技術が確立されてきている。テープはまもなく終息が予測され、プライマリストレージにSSDが搭載される時代にも足を踏み入れ始めているというのだ。

　「特に重複除外の市場は大きな可能性を秘めている。Fortune 1000の企業では、6～20％が過去5年間に何らかの重複除外技術を利用しているというアンケートデータがある。これが2012年にはすべてのバックアップ環境の70％が重複除外対応するだろうと予測されているのだ。向こう3年間で急速に導入が進むことになるのだろう」（同氏）。

　現在は、同社製ファイル仮想化製品「Rainfinity」との連携を進めているという。「ほかにもSymantecやF5の製品とも連携が進んでいるが、今はひとまずRainfinityとの連携に関心を寄せている。これはとてもわくわくする仕事だ」（同氏）。

　ストレージの世界は、D2Tの時代を突き抜けてからは変革がめまぐるしい。重複除外はまだまだ特定の分野に特化した技術なのかもしれないが、汎用の世界にも応用が利く技術だ。「その世界はもうすぐそこまでやってきている」（同氏）。

（川島弘之）

2009/11/6 14:18