“Hawk”が気になって、Pivotalジャパンさんの「Big Data Suite」紹介セミナーに行ってきました。

コンサルのクライアントさんにデータ処理基盤導入の案件を担当させて頂いているのですが、ちょっと凝ったデータ構造になりそうながらも規模が巨大。かつ、それなりの低レイテンシーでの応答が必要となりまして、対応できそうな製品を探しておりました。

データ量がそこそこ抑えられるならmongoDBを並べて対応できるかなあとも考えつつ、クラウドが利用できるならGoogle BigQueryやAWS Redshiftなどの利用も想定範囲内。オンプレならHPのVerticaや、今どき感あふれる"SQL on Hadoop"な製品も非常に魅力的で、Cloudera ImpalaやPresto、ベータながらもApache drillなども興味深い所。

そんな中、PivotalジャパンさんがHAWKの解説をするとの事で、これは行かねばと聞いてまいりました。

そもそも"HAWK"って何ぞやというと、Hadoopの商用ディストリビューション"Pivotal HD"で稼働する標準SQL対応の"SQL on Hadoop"データベース。
Javaではなくネイティブのバイナリーで提供されるのと、処理の間にMapReduceを使わず、中間演算結果もメモリ上にストアしておくため、HIVEと異なって演算時のオーバーヘッドを回避する事によって高速化を図っているとの事。

もともとはGreenplum DBのエンジンで、データソースをHDFSに対応させたという経緯があるため、最速を求めるなら、HDFSのオーバヘッドの分GAWKの方が不利になるので、HDFSから(ローカルファイルシステムでデータを管理する)GreenplumDBにロードした方が良いらしい。

事例紹介ではMicroADさんの広告効果分析で採用されたとの事。MicroADさんはバックエンドにIBMさんのPureData(旧Netezza)に、フロントはSPSS Modelerと、大変お金持ちな構成が非常に羨ましかったのですが、ModelerからHadoopのデータに直接アクセス出来るようにしたかったからとの事だそうで。

HIVE/Pigも便利とはいえMapReduceを介するオーバーヘッドは大きいし、"SQL on Hadoop"もこれから良い製品がどんどん出てくるんじゃないかと期待するなか、HAWKも非常に高いポテンシャルを持った製品と思いました。価格がそれなりにするので、コミュニティー版のようなカジュアルに利用できる設定が無いのが非常に残念なんですけどね。