|
東京エレクトロン株式会社 コンピュータ・ネットワーク事業部 マーケティング・グループ 統括リーダーの上善良直氏
|
バックアップやリストアの所要時間(ウィンドウ)を短縮できる方法として普及しつつあるディスクベースのバックアップシステム。ただし、データの保管コストや災害時のデータ保全性を考慮すると、ディスクだけでは太刀打ちできない。そこで、通常はテープライブラリを併用することでディスクとテープが持つ欠点を補い合い、全体としてバランスのとれたバックアップシステムを構築している。
このような中、ディスクのみでも実用的なバックアップを目指す新しいタイプのストレージ「COS(Capacity Optimized Storage)」が登場した。今回は、従来型のバックアップシステムが抱える問題点に加え、それを解決するCOSの仕組み、さらには代表的なCOS製品としてData DomainのDD400エンタープライズシリーズを取り上げる。なお、本記事を執筆するにあたり、日本市場にいち早くDD400エンタープライズシリーズを投入した東京エレクトロン株式会社 コンピュータ・ネットワーク事業部 マーケティング・グループ 統括リーダーの上善良直氏よりお話を伺った。
■ アクセス性能の向上とデータ保管コストの削減は二律背反の関係
大容量データのバックアップをとる手段として古くから用いられているのがテープだ。いわゆるD2T(Disk to Tape)と呼ばれるバックアップ手法である。テープメディアはGB単価が非常に安いことから、大容量のデータを低コストに保管できる。また、連続運用のための電気料金、空調や電源施設の設備費といったランニングコストも安い。テープライブラリは、データの読み書き時でも何台かのテープドライブとオートメーション機構が稼働する程度であり、待機している間は制御回路くらいしか電力を消費しない。つまり、大きなデータを安く保管するなら、テープの右に出るものはないということだ。
一方、テープにも欠点はある。その最たるものが、バックアップやリストアの遅さだ。テープは、一本の細長いメディアを往復してデータを読み書きするシーケンシャルアクセス方式を採用している。非常に大きなデータを丸ごとバックアップ、リストアするような作業であればそれなりに高速なのだが、テープの途中からデータを書き込んだり、テープの中に記録されたデータを個別に抽出するといった作業では遅さが目立つ。
そこで、パフォーマンス上の問題をクリアするために近年登場したのが、ディスクベースのバップアップである。一般にD2D(Disk to Disk)と呼ばれる手法だ。ランダムアクセスを高速に行えるHDDを用いてデータのバックアップをとることから、総じてテープよりも高速にバックアップやリストアを実行できる。現在、企業が許容できるバックアップやリストアのための時間(ウィンドウ)は日々短縮する傾向にあり、D2Dバックアップの魅力は増すばかりだ。
ただし、ディスクにも欠点はある。それが、テープよりもはるかに高いコストである。近年、ATAテクノロジに基づくディスクサブシステムによってGB単価をいくらか下げることに成功したが、それでもテープライブラリと比較するといまだに5~10倍の差はある。また、ディスクサブシステム内のHDDはすべてフル稼働を続けているため、ランニングコストが非常に高い。このような理由から、大規模バックアップをディスクでまかなうのは現実的ではない。
■ D2D2Tによってアクセス性能とコストのバランスをとる
|
多くのバックアップシステムで見られるD2D2Tバックアップの現状(出典:東京エレクトロン、以下同様)。ディスクサブシステムはバックアップウィンドウを短縮する高速キャッシュとして機能しており、バックアップデータの最終着地点はあくまでもテープライブラリにある。
|
結局のところ、D2DおよびD2Tの折衷案として多く採用されているのがディスクとテープを併用するD2D2T(Disk to Disk to Tape)バックアップである。これは、コスト負担にならない程度のディスクサブシステムと大容量のテープライブラリを組み合わせたものだ。D2D2Tでは、まずディスクに対して高速なバックアップを行い、利用頻度の低いものや長期保管するデータをさらにテープライブラリへと移送する。これにより、ディスクが持つ優れたアクセス性能とテープが持つ安価なコストを両立できる。
しかし、D2D2Tを導入したとしてもバックアップの最終着地点は依然としてテープライブラリであることに変わりはない。現状のD2D2Tで用いられるディスクベースのバックアップ装置は、テープによるバックアップウィンドウの問題を一時的に緩和する高速キャッシュという位置付けでとらえられている。
ディスクはGB単価、ランニングコストともに高いことから、テープに匹敵する大容量のバックアップ領域を確保するのはかなり難しい。ましてやWAN回線を通じた長距離のデータレプリケーションとなるとさらに敷居が高く、こうしたサイトレベルでの災害対策には莫大なコストがかかってしまう。一方、テープなら安価なコストで大きなバックアップ領域を用意できる上、テープカートリッジの搬送を通じてデータのオフサイト保管も容易に行える。このため、中規模ないしは大規模のバックアップシステムを構築する場合には、どうしてもテープに頼らざるを得ないのだ。
■ バックアップ効率を最大限に高めるCO技術
そのような中、本気でテープレスバックアップに取り組むための技術としてCO(Capacity Optimization)が登場した。これは、データを小さな共通のパーツとその設計図に分解し、データの冗長性を可能な限り取り去ろうという技術である。上善氏によれば、バックアップを定期的に繰り返して実行するような環境下では、CO技術によって平均20分の1にまでデータを圧縮できるという。つまり、データを強く圧縮してからディスクに保管することで、実質的なデータ保管コストをテープと同等のレベルにまで削減できる可能性があるということだ。
従来のバックアップシステムでもデータの圧縮は当たり前のように行われている。そしてその圧縮手法は、いわゆる繰り返しのパターンを短い情報で置き換えることで元データのサイズを縮めるというものだ。例えば、「100000…(0は1000個続く)」という文字列があったときに、これを「1000 0(1000個の0)」と記述し直せば大幅にサイズを縮められる。同じように「12341234123412341234」という文字列があったときには、これを「6 1234(6個の1234)」と記述し直せばサイズは4分の1になる。
このような通常のデータ圧縮技術を利用するだけでも、典型的なビジネスデータなら約2分の1にまで圧縮できる。ただし、定期的なバックアップを通じてデータ全体もしくはデータの差分や増分をとれば、バックアップを繰り返したぶんだけ確実にデータが増えていく。例えば、フルバックアップを10回繰り返せば、10個の元データがそれぞれ2分の1に圧縮保存されるが、保管すべきデータは10個に増えている。したがって、トータルでは元データの5倍にふくれあがる計算になるのだ。これをGB単価の高いディスクサブシステムにすべて保管しようとすれば、コストは非常に高いものについてしまう。
そこで、CO技術はバックアップを繰り返したときにデータの総量を一気に減らすように圧縮をかけていく。具体的には、データを小さな共通パーツとその設計図に分解する。データは、これらの共通パーツを設計図のとおりに組み合わせたものだ。子供用ブロックで作られた家を考えたとき、これはさまざまな形のブロック(共通パーツ)とそれを組み立てるための設計図から成り立っている。例えば家が100個のブロックから作られていたとすると、それに必要なブロックが3種類だけならば、この3種類のブロックと設計図があれば家を復元できる。これをデータ圧縮にも応用したのがCO技術というわけだ。
もちろん、初回のフルバックアップ時にはそれほど大きな圧縮効果を見込めない。コンピュータのデータは、子供用ブロックのように単純な構成をとっていないからだ。しかし、2回目以降にはCO技術が大きな効果を発揮する。通常、2回目以降のデータは、1回目の元データにいくらかの変更を加えたものになっている。そこで、変更のない部分を既存の共通パーツで積極的に置き換え、変更された部分を新たなパーツとして追加する。すると、2回目以降のデータは、すでに記録されている既存のパーツに追加パーツと新たな設計図を加えるだけで復元できてしまう。一見すると眉唾にも思える20分の1という圧縮率は、繰り返しのバックアップが前提であれば確かに達成できるのだ。
|
|
CO技術の仕組み。元データは共通のパーツと設計図に分解されてから保管される。データ内に似通ったデータ列があればあるほど共通パーツの数を減らすことができ、ひいてはデータ全体の圧縮率を高めることにつながる。
|
バックアップを繰り返した場合、新たなバックアップは前回からの変更点のみを記録するのが一般的だ。CO技術は、この変更点を最も効率の良い形で記録し、従来の手法では得られないような高圧縮率を達成する。
|
■ Data Domainの新しいCOS製品「DD400エンタープライズシリーズ」
このようなCO技術を採用したストレージがCOS(Capacity Optimized Storage)である。現在、CO技術に注目してストレージビジネスを展開している新興企業がいくつかあるが、今回は日本で最も普及しているDota Domainの製品を取り上げよう。
Data Domainが発売しているCOS製品は、高速なバックアップとリカバリーに特化したDD400エンタープライズシリーズである。専用のDD OS(Data Domain Operating System) 3.0を搭載し、バックアップやリストアの信頼性にもかなり注意を払った設計を採用している。DD400シリーズは、160GBのHDDを8台内蔵したDD410、400GBのHDDを8台内蔵したDD430、400GBのHDDを15台内蔵したDD460、そして外部ディスクストレージを接続可能なDD400gという4つのモデルから構成される。最大スループットは、DD410が160GB/時、DD430が220GB/時、DD460とDD400gが290GB/時とかなり高速だ。
DD400は、2台のHDDにパリティを保管するDD RAID(一般にRAID 6と呼ばれる手法)を採用しているため、物理的な記憶容量はDD410が960GB、DD430が2.4TB、DD460が5.2TBである。この物理領域に対し、CO技術による高いデータ圧縮を適用してデータを次々と保管していく。Data Domainが公表している情報によれば、バックアップ可能な実質容量は、週次のフルバックアップと日次の差分バックアップを行うケースでDD410が15TB、DD430が42TB、DD460が83TB、日次のフルバックアップを行うケースでDD410が55TB、DD430が114TB、DD460が233TBである。これはテープライブラリにも匹敵する記憶容量だ。
|
|
DD400エンタープライズシリーズのラインナップ。日次フルバックアップを行うケースでは、テープライブラリにも匹敵する56~68円(執筆時点では本体の価格下落によりさらに低下)ものGB単価を達成できる。
|
DD400シリーズを利用したデータ圧縮のテスト結果。1TBのデータセットに対して週次でフルバックアップ、日次で差分バックアップを行ったときのもの。初回の圧縮効果は3~4倍に過ぎないが、2回目以降のフルバックアップでは圧縮率が50~60倍にも達している。
|
|
CO技術を利用すればプライマリサイトからセカンダリサイトに流れるデータを大幅に圧縮できる。これにより、帯域幅の狭い回線でも大容量のデータを転送可能だ。
|
すでに述べたように、ディスクベースのバックアップで災害対策を行うとすると、リモートサイトにも大容量のディスクサブシステムを置かなければならない。そして、その間を高速なWAN回線で結ぶ必要がある。しかし、これには莫大なコストがかかる。DD400シリーズのDomain Replicatorを利用すれば、こうした問題もすんなりと解決できる。プライマリサイトとリモートサイトにDD400シリーズを配置し、これらの間でレプリケーションを行うと、両者の間ではCO技術によって大幅に圧縮されたデータのみが流れる。データが圧縮されれば、サイト間を流れるデータの転送レートはそのぶんだけ低くなる。上善氏によれば、1TBの定期的なフルバックアップをT1回線(1.5Mbps)でも十分に実現できるとのこと。
CO技術を採用したディスクバックアップを活用すれば、テープに匹敵する低コストのデータ保管と災害対策の両方を同時に実現できてしまう。たいていの企業が求める要件はテープライブラリがなくても満たせることから、データの最終着地点がディスクという、本当の意味でのテープレス・バックアップがようやく現実のものになるのだ。
■ URL
Data Domain
http://www.datadomain.com/
東京エレクトロン株式会社
http://www.tel.co.jp/cn/
( 伊勢 雅英 )
2006/03/27 00:00
|