Enterprise Watch
バックナンバー

各種法規制に準拠するディスクベースのアーカイブストレージ「EMC Centera」 [後編]


 国内外の法規制の現状とそれに準拠するCenteraの特徴について、EMCジャパン株式会社 エンタープライズ事業部 マーケティング部 販売推進グループ プログラムマネージャの丸山隆生氏と同部 プロダクトマネージャのマーク清水氏にお話を伺った。後編では、改ざん防止と不正アクセス対策機能を備えたディスクベースのアーカイブストレージ「Centera」の仕組みについて取り上げる。


EMCジャパン株式会社 エンタープライズ事業部 マーケティング部 販売推進グループ プログラムマネージャの丸山隆生氏(写真右)と同部 プロダクトマネージャのマーク清水氏(写真左)

Centeraがもたらす4つの大きな特徴

EMC Centera

Centeraがもたらす4つの大きな特徴(出典:EMCジャパン、以下同様)
 Centeraの特徴は、見読性、真正性、長期保管、管理性の4つに集約される。

 見読性は、閲覧したときにすぐ閲覧できることだ。前編でも説明したように、Centeraはメディアの入れ替えが要らないディスクならではの特長を生かして、必要なデータに素早くアクセスできるようになっている。また、複数アプリケーションからのランダムアクセスに対応できるのもディスクベースならではの利点だ。

 真正性は、改ざんや不正アクセスができないことを保証することだ。後述するように、各データに対してユニークなContent Addressを割り当て、Centera APIと呼ばれる特別なインターフェイスを介してのみアクセスできるようになっている。これにより、改ざん以前に不正アクセスそのものを未然に防げるわけだ。

 長期保管は、データを長期にわたり確実に保存できることを表す。光メディアやテープなどのように、規格の頻繁な変更に伴うデータのマイグレーションはいっさい不要だ。また、データごとに保持期間を設定できるなど、法規制に対して柔軟に対応できるのもディスクベースならではの特徴である。

 管理性は、保管されたデータの保全性を保つためにシステムが自己構築、自己修復の機能を持つことを指している。Centeraは、システム内部のハードウェアのみならず、保管されたデータもすべて二重化されている。このため、もし障害が発生しても、運用が止まらないように、そしてデータが失われないようにバックグラウンドで修復作業が自動的に行われる。

 それでは、次にこれらの特徴をどのような仕組みで実現しているかを技術的な切り口からひとつずつ見ていこう。


単一障害点のないピアツーピア・クラスタ構成を採用

Centeraは業界標準の19インチラックに多数のノード(1Uサーバーと同じサイズ)が搭載されたものである
 Centeraは、外観こそ独自設計の大きな箱のように見えるが、その中身は業界標準の19インチラックに多数のノードが搭載されたグリッドライクの設計を採用している。これらのノードはCenteraノードと呼ばれており、インテルアーキテクチャのCPUと4台のATA HDD(現行製品は合計で約1TB)を搭載する。Centeraノードは、Centera APIからの呼び出しに対応するアクセスノードとコンテンツを保管するストレージノードの2種類からなり、どちらもCentraStarと呼ばれるEMCの独自OSが動作する。

 Centeraは8ノードが最小構成で、容量の拡張は8ノード単位で行われる。すべてのCenteraノードは完全なピアツーピア・クラスタを構成しており、各ノードは二重化されている。従って、増設単位となる8ノードには、2台のアクセスノードと6台のストレージノードが含まれる。二重化によりストレージノードは実質3ノード分となることから、ストレージ容量は現行製品で約3.3TBということになる。Centeraの19インチラックには1基あたり最大32ノード(約15.9TB)を搭載できる。さらに、複数のラックを束ねたCenteraクラスタや、Centeraクラスタを連結させたCenteraドメインも構成可能だ。こうした高い拡張性により、ストレージ容量をPBクラスまで増設していける。


二重化されたデータはそれぞれ電源系統の異なるノードに格納される。また、ノードに障害が発生したときには、そのノードに格納されているデータを副となるデータから復元し、速やかに他のノードに書き込んで二重化された状態に自動修復する
 Centeraに格納されるデータは基本的に正と副という形で二重化されるが、この二重化には電源系統が異なるノードが用いられる。このため、電源系統の障害を含め、どちらか一方に深刻なハードウェア障害が発生しても、実データは決して失われない。もし、ノードの障害によりデータの片方が失われても、電源系統が異なる別のノードへと即座にデータが複製される。これは、いわゆる自己修復と呼ばれる機能だ。

 「Centeraは、RAIN(Redundant Array of Independent Nodes)に基づき、ノード間の完全な冗長性を確保しています。また、独自の自己修復機能によって、ノードやHDDを交換している間にデータの二重化が自動的に行われます。データを複製する際には、リソース全体の能力を考えた上で、Centera全体のパフォーマンスが落ちないようにデータが分散されます」。

 「また、障害の有無にかかわらず、バックグラウンドでデータの整合性チェックが常に行われます。データの容量やCenteraに対するアクセス負荷などによって異なりますが、定期的にすべてのデータをチェックするように設計されています。光メディアやテープは時間とともに劣化してしまうため、データの真正性を長期にわたって保証し続けることは困難です。ディスクであっても、定期的なデータの整合性チェックを行っていない製品であれば同様です。一方、Centeraは長期アーカイブに絶対不可欠なデータの真正性をとことん追求して設計されているのが大きな特徴です(以上、清水氏)」。

 長期アーカイブという用途を考えると、ストレージ自体の製品寿命が懸念材料となる。近年のストレージ要求を考えると、せいぜい5年も持てばよいほうではなかろうか。しかし、ストレージ保管するデータが9年の保持期間を要求する場合、その保管途中でストレージが製品寿命を迎えてしまえば、そのタイミングでストレージを新しいものに交換しなければならなくなる。当然、ストレージを交換するとなると、旧ストレージから新ストレージへのデータ移動に人間が深く介在する。データの改ざん防止やセキュリティ確保といった観点から考えれば、あまり望ましい形ではない。

 これに対し、Centeraは製品寿命の面でも深く配慮されている。すでに説明したとおり、Centeraは8ノード単位でノードを追加、交換できるが、世代が異なるノードの混在も許されている。従って、ビジネスが要求するストレージ容量、アクセス性能にあわせて、そのときに最新のノードを追加することにより、Centeraを柔軟に拡張していけるわけだ。また、古い世代のノードが故障し、すでに保守パーツがなくなっていたとしても、新しい世代のノードに入れ替えることで運用を継続できる。もちろん、故障時のノード交換は1ノード単位で対応できるという。Centeraは、こうした複数世代の混在を許すことで、Centera内での半永久的なデータ保管を可能にしている。


Centera APIを通じてのみアクセスが可能なCentera

 Centeraは、いわゆるGigabit Ethernetポートを備えたネットワークストレージの一種なのだが、通常のNASのようにNFSやCIFSといったプロトコルを通じてデータを読み書きできるわけではない。CenteraとのアクセスはCentera APIと呼ばれる独自のインターフェイスを介してのみ行われる。これをサポートするのが、アプリケーションとCenteraの間に配置されるアーカイブアプリケーションサーバー(以下、AAS)である。

 Centeraに格納すべきアプリケーションのデータは、まずAASに送られる。AASは、このデータ(情報オブジェクト)をCentera APIを通じてCenteraへと送り込む。Centeraは、このAASに対する認証を行い、正規のAASであることを確認する。つまり、Centera APIを組み込んだ他のサーバーをCenteraに接続してもAASになりすますことはできない。次に、Centeraは受け取ったデータに対してMD5をベースとしたハッシュ関数を適用し、ユニークなContent Addressを生成、これをAASに返す。AASは、データの属性を記述したメタ情報とContent Addressをひも付け、自身のデータベース内でインデックス管理する。

 一方、アプリケーションからCentera内のデータを参照するときには、データの格納とまったく逆の手順を踏む。AASに読み出したいデータを問い合わせると、AASは自身のデータベースからこのデータに対応するContent Addressを割り出し、CenteraにContent Addressを送り込む。Centeraは、AASから受け取ったContent Addressに対応するデータをAASに返し、さらにAASはアプリケーションへとデータを返す。つまり、AASは金庫の鍵、Centeraは金庫内部に相当し、両方を併せた形で金庫全体が構成されるわけだ。

 Centera APIは無償で提供されているため、ユーザー独自のアプリケーションでもCentera APIを組み込むことでCenteraに接続できるようになる。また、Centeraとすでに統合済みの市販パッケージも数多く用意されている。ワールドワイドではCentera APIの組み込みを行っているソフトウェアベンダは全世界で300社以上、すでに組み込みが終わり、製品を発売しているところは171社(執筆時点)あるという。また、日本国内のベンダでも対応が進みつつあり、電子メール、ドキュメント類、画像、コールログなどのアーカイブを行うソリューションがすでに利用可能だ。

 なお、暗号化の専門家からMD5に関する脆弱性が指摘されている。これは、MD5が長い入力から短い出力を生成するハッシュ関数であるがゆえに、ハッシュ結果が重複する可能性を指摘したものだ。要するに、Content Addressの一意性を損なう可能性があることを意味している。丸山氏によれば、ハッシュ結果が重複する可能性は天文学的に低く、実用上は問題ないという。しかし、厳密性を重視する顧客がいるのも事実。そこで、EMCはMD5をベースとした暗号化アルゴリズムに加え、Content Addressにタイムスタンプなどの他のメタ情報を組み込む改良方式もサポートしている。


Content Addressこそが、Centeraが通常のストレージと大きく異なる部分でもある。通常のストレージは、情報の格納位置として論理ユニット番号(LUN)、ドライブ名とフォルダ名を含むパスに基づくアドレスが用いられる。しかし、Centeraは情報の格納位置とは無関係なContent Addressを使用してデータにアクセスする。EMCは、こうした新しいタイプのストレージをCAS(Content Addressed Storage)と呼んでいる
Centeraのデータ格納の仕組み。Centeraは、Centera APIを通じてのみアクセスが可能なストレージである

情報セキュリティ基盤のストレージ部分を支えるのがEMCの仕事

 EMCは、企業が持つ重要情報を顧客情報、営業秘密、知的財産の3種類に大別している。顧客情報はその企業が取引している顧客のあらゆる情報、営業秘密は営業活動をする上でのノウハウ、営業が持つ顧客の見積情報、提案書類、プロジェクトの内容など、知的財産は企業が持つ特許情報、ライセンス情報などを表している。そして、これらのデータに対する法規制準拠と高いセキュリティを満たすのが情報セキュリティ基盤である。

 「EMCの役目は、この情報セキュリティ基盤の中でも特にストレージの部分をきっちりと整備していくことです。日本では、個人情報保護法によって顧客情報の保護にばかり目が行きがちですが、欧米並みの情報管理を達成するには営業秘密や知的財産を含むすべての企業情報を保護する必要があります。EMCジャパンは、4月からの法律施行を足がかりに、顧客情報からの横展開として営業秘密や知的財産を保護する必要性も日本のお客様にお知らせしているところです(丸山氏)」。

 また、予算の少ない中小企業に対するソリューションも強化していくという。その先駆けとなるのが、2月15日に発表されたEMCジャパンと伊藤忠テクノサイエンス(CTC)による個人情報保護対策ソリューションの協業体制だ。エアーが開発した電子メールアーカイブ&フィルタリングソフトウェア「WISE Audit for Centera」、クライアント端末上のデータを自動的にバックアップするConnectedのソフトウェア「Connected DataProtector」をCenteraと組み合わせたパッケージ製品の提供に加え、これらの導入から運用保守サービスにいたるトータルサービスを一括して提供するという。3月31日までのキャンペーン期間は、いずれのソリューションも税込998万円からとなっており、中小企業でも手の出せる価格帯に収まっている。



URL
  EMCジャパン株式会社
  http://japan.emc.com/
  ニュースリリース「CTCとEMCジャパン、個人情報保護対策ソリューションで協業強化」
  http://japan.emc.com/news/press_releases/viewJP.jsp?id=2955

関連記事
  ・ 各種法規制に準拠するディスクベースのアーカイブストレージ「EMC Centera」 [前編](2005/03/14)


( 伊勢 雅英 )
2005/03/22 00:00

Enterprise Watch ホームページ
Copyright (c) 2005 Impress Corporation, an Impress Group company. All rights reserved.