ディスクは高速だが高い。テープは安いが遅い。これが、世間で広く知られるディスクとテープの大きな特徴だ。現在、多くの企業では、さまざまなクラスのディスクサブシステムとテープライブラリを組み合わせたマルチティアードストレージ(multi-tiered storage)が採用されている。マルチティアードストレージは、ストレージの階層化を通じて高速、大容量、安価という利点を兼ね備えた理想のストレージに近づけることを最大の目標としているが、ディスクとテープの間には依然として大きなギャップがあり、なかなかユーザーの思い通りには事が進んでいない。
このような中、ディスクとテープのギャップを埋めるMAID(Massive Arrays of Inactive Disks)テクノロジが一部で注目され始めている。今回は、MAIDの仕組みとMAIDに適したアプリケーションについて解説する。
■ SATAディスクサブシステムによって新たなストレージ階層が生まれる
最近、ディスクサブシステムの世界で著しい成長を見せているのが、SATA(Serial ATA) HDDを搭載した安価で大容量のディスクサブシステム(以下、SATAディスクサブシステム)である。ある調査会社の調べによれば、2006年にはSATA、SCSI、FCを含めたすべてのディスクサブシステムのうち40%がSATA HDDを搭載した製品になるという。
SATAディスクサブシステムは、ディスクならではの高速アクセスとSATA HDDならではの安価なGB単価によって、FC/SCSI HDDを内蔵した高性能ディスクサブシステム(以下、FC/SCSIディスクサブシステム)を支えるセカンダリディスクもしくはバックアップ/リカバリを高速に行うテープライブラリの代わりとして使用されている。SATAディスクサブシステムは、これまでのFC/SCSIディスクサブシステムとテープライブラリの間に新たな階層を作り上げ、ディスクからテープへの遷移をより円滑なものにした。自動車にたとえれば、ギアの段数が1段増え、より滑らかな走行が可能になったようなものだ。
しかし、それでもディスクとテープの本質的なギャップはなかなか埋まらない。SATAディスクサブシステムを挟むことでギアは1段増えたものの、SATAディスクサブシステムとテープライブラリの間には依然として大きなギア比の違いが存在するからだ。ディスクはアクセスタイムがミリ秒オーダーときわめて短い反面、GB単価と運用コスト(電気、空調などの費用)がかなり高い。一方のテープライブラリは、GB単価と運用コストが安い反面、アクセスタイムが秒/分オーダーときわめて長い。SATAディスクサブシステムの登場によって、GB単価はいくらか下げることに成功したが、それでもテープライブラリと比較すると5~10倍の差はある。また、運用コストは、FC/SCSIディスクサブシステムと同様にかなり高い。このため、コストを考慮し、アクティブなアーカイブデータの85%が依然としてテープライブラリや光ディスクライブラリに保管されているというのが実情だ。
■ すべてのHDDを回転させないMAIDテクノロジ
|
ディスクサブシステムの中に少数のHDDからなるRAIDグループが多数含まれている様子を表したもの。赤いものはHDDが回転しているものを指す。従来のディスクサブシステム(左)は、すべてのHDDが回転しているのに対し、MAID対応のディスクサブシステム(右)は、一部のHDDしか回転していない。
|
そこで、最近注目を浴びているのがコロラド大学のDirk Grunwald氏によって提唱されたMAID(Massive Arrays of Inactive Disks) テクノロジである。MAIDテクノロジは、ディスクの利点とテープの利点を併せ持つ新しいタイプのディスクサブシステムを実現し、ディスクとテープのギャップを埋める役割を果たす。すでに、COPAN SystemsやAsacaなどがMAID対応のSATAディスクサブシステムを発売している。
MAIDのアイディアは、データアクセスの局在性(ローカリティ)に基づく。一般にデータアクセスの80%は、全体のうち20%の物理領域に対して発生することが知られている。つまり、100台のHDDを内蔵したディスクサブシステムがあったとすると、アクセスの80%は20台のHDDに格納されたデータに対するものであり、残りの80台にはそれほどアクセスが発生していないことを意味する。もちろん、使用するアプリケーションやRAIDの物理的な構成方法によっていくらか左右されるものの、どのようなケースでもアクセスの大半はごく限られたストレージ領域に対して発生しているという定性的傾向に変わりはない。
そこで、MAIDは“すべてのHDDを回転させない”という斬新なアプローチを採用している。少数のHDDからなるRAIDグループを多数構成し、このRAIDグループ単位でHDDのスピンドル回転を制御する。通常は、多くのHDDがドーマント状態(回転が停止している状態)であり、ドーマント状態のHDDに対してアクセスが発生したときにのみHDDが回転する仕掛けとなっている。HDDの回転は10秒ほどで安定するため、テープライブラリのアクセス時間(テープのロードからデータアクセスが開始されるまでの時間)と比べるとはるかに短い。特に、テープライブラリは全体の2%程度しかデータがオンライン状態(テープカートリッジがドライブに挿入された状態)となっていないことから、データアクセスが広範に発生するケースではテープカートリッジのロード、アンロードが頻繁に発生し、ディスクとの速度差がさらに広がる。
“すべてのHDDを回転させない”というMAIDの特徴は、GB単価の低減にも大いに役立っている。一部のHDDしか稼働させないことで、I/Oパスの帯域幅やキャッシュ容量を最小限にとどめられるなど、ディスクコントローラの設計をいくらか緩やかにできるからだ。COPAN Systemsによれば、MAID対応SATAディスクサブシステムのGB単価は、従来のSATAディスクサブシステムの約半分に抑えられるという。この結果、テープライブラリとの価格差が3~5倍にまで縮まり、SATA HDDのコストメリットをさらに引き出せるようになる。
■ 1日あたりの稼働時間を減らすことでSATA HDDのMTBFを延長
MAIDは、RAIDグループ単位でHDDの回転を細やかに制御できるが、実際の製品ではある程度まとまった単位でHDDの回転を制御する仕様となっている。例えば、COPAN SystemsのRevolution 200Tは、1キャビネットあたり最大896台のSATA HDD(合計224TB)を搭載できるが、全体のうち4分の1程度が稼働、残りが停止するように設計されている。また、それぞれのHDDは、1日あたり4回程度という少ない頻度でスピンドルON/OFFが発生するように設計されている。
通常、SATA HDDは4~5万回程度のスピンドルON/OFFに耐える。このスピンドルON/OFFは、停止状態から回転状態への遷移と回転状態から停止状態への遷移の両方を指している。スピンドルON/OFFの頻度が高まると、それだけHDDが故障する確率も高まる。エンタープライズの基準を満たすには、上限の50%程度、すなわち2~3万回で抑えるのが理想とされている。Revoltion 200Tでは、8年間の使用でSATA HDDのスピンドルON/OFFが累計2万5000回程度となる計算なので、ディスクサブシステム自体の製品寿命を考慮すれば十分に実用レベルにあるといえる。
また、1日のうち4分の1しか動作しないことで、SATA HDDのMTBF(平均故障間隔)を理論上4倍に伸ばせる。SATAディスクサブシステムでよく問題とされるのは、FC/SCSIディスクサブシステムに対する信頼性の低さである。というのも、FC/SCSI HDDが120万時間以上のMTBFを持つのに対し、SATA HDDのMTBFは40~60万時間とかなり短いからだ。しかし、MAIDを採用することでSATA HDDのMTBFを理論上4倍の160~240万時間程度まで延長できる。もちろん現実的にここまで延長できるとは考えにくいが、少なくとも連続稼働のFC HDDやSCSI HDDと同等以上のMTBFを確保することは可能だろう。
■ バックアップ/リストア、アクティブアーカイブに最適なMAIDテクノロジ
MAID対応のSATAディスクサブシステムは、SATA HDDを内蔵していることからも分かるように、基本的にはIOPSよりもMB/secを重視したアプリケーションに適している。また、一度書き込んだデータを時々参照するWORO(Write Once, Read Occasionally)の用途に適している。その筆頭に立つのが、D2D(Disk To Disk)に基づく高速バックアップ/リストアである。
すでに、多くのベンダからSATAディスクサブシステムを用いたD2Dバックアップ/リストアソリューションが提供されており、このソリューションを導入するユーザーも着実に増えている。しかし、近年のデータ増大はSATAディスクサブシステムの低価格化を上回るレベルに達しており、長期的に見るとSATAディスクサブシステムにかけるコストは依然として上昇する傾向にある。これに対し、MAIDはGB単価を下げる心強い味方となってくれる。先述のとおりMAIDの採用によってGB単価が約半分に削減されることから、同じコストで2倍のストレージ容量を確保できる。これにより、従来のSATAディスクサブシステムと比べてデータの急増に足並みを揃えやすくなるわけだ。
MAIDが得意とするWOROの例としては、過去の膨大な研究データやデジタルコンテンツを保管するアクティブアーカイブがある。これらのコンテンツは、あとあとになって参照されるケースが多く、アクセス時間の遅いテープライブラリに保管しておくと活用しづらいものとなってしまう。ビジネスはスピードが重要であり、テープライブラリからゆっくりとデータを参照している余裕はもはやない。
MAIDを採用した大手企業の代表例が、全米27州に1100万人の視聴者を抱える米国最大級のケーブルテレビ会社、Time Warner Cableである。同社は、頻繁に使用する映像データの保管にディスクサブシステムを、それ以外のアクティブデータをテープライブラリに保管していたが、テープライブラリ上のデータを参照する頻度が当初の想定をはるかに上回り、ついにはビジネスに支障をきたしてしまった。そこで、COPAN SystemsのRevoltion 200Tを導入し、全体の15%を高速なプライマリディスクに、残りの85%をRevoltion 200Tに格納することで諸問題を解決したという。なお、テープライブラリからの置き換えを容易にするため、MAIDディスクサブシステムをテープライクに使えるようにするFalconStorのVirtualTape Library (VTL)ソフトウェアを併用しているもようだ。
MAID対応のSATAディスクサブシステムは、アクティブアーカイブだけでなく、大容量のオンラインディスクとしても期待されている。その一例が、大容量データに対する広範な解析を必要とする科学技術計算などの用途だ。例えば、電波望遠鏡から次々とキャッチした膨大な情報をHPCC(High-Performance Computing Cluster)で解析するケースでは、オンラインデータ領域が大きければ大きいほどよい。このようなデータ領域にMAID対応のSATAディスクサブシステムを活用すれば、コスト効率の高いシステムを構築できる。ディスク容量が10TBを超えてくると価格差が億円単位で跳ね返ってくることから、MAIDを導入するメリットは非常に大きい。
このように、ディスクとテープのギャップを効果的に埋めるMAIDテクノロジは、今後のディスクストレージに大きなインパクトを与えることだろう。そして、大手ベンダによるMAID対応製品の発表も待たれるところだ。
■ 関連記事
・ 日本ストレージ・テクノロジーに聞くストレージ戦略(2004/03/22)
( 伊勢 雅英 )
2005/02/28 00:00
|