学習に便利なIBM Data Scientist Workbench
マインドテックの冨です。
先月、今月とWatson Summitやdatapalooza Tokyoに出てきて、IBM社のデータ処理系のツールなどを見てきましたが、BluemixからWatsonが手軽に利用できるようになったりと、同社のいう"Cognitive"な環境とともに、分析系のツールが展示されておりました。もっとも同社は著名な統計分析ツール"SPSS"やBIツール"Cognos"を買収したという経緯もあり、幅広い製品ポートフォリオを有しています。
そんな中で面白いと思ったのがタイトルにもつけた"Data Scientist Workbench"
https://datascientistworkbench.com/
データ分析に利用できるオープンソース系のツールを、統合的に利用できるようにしたサービスです。つらつらと触ってみていましたが、どうしてこれがナカナカ便利。特に学習用途には向いているなと思った次第です。
データ投入、データ整形、分析に必要なツールが揃っています。それぞれのツールの利用方法の詳細は、それぞれググってくださいませ。
データ投入:”MyData"
データファイルのアップローダーです。ディレクトリで階層管理する事もでき、アップロードしたデータファイルは各種分析ツールから利用することができます。また有名なiris.csvなどのデモ用データなども用意されていました。
データ整形:”Open Refine"
もともとはGoogleで開発されたGoogle Refineがベースで、2012年にオープンソース化されたデータクレンジングやデータ抽出、フォーマット変換を行うためのツールです。
Text, CSV, TSV, XML, RDF, JSONなどのデータフォーマットに対応し、データの前処理を行えます。
データ分析:R studio
分析用言語”R"を使い易くするためのIDE・統合開発環境です。コードのエディタの他、コンソールやグラフ表示なども併せて行う事が出来ます。またBig RやSparkなどとも連携しており、即時に利用可能です。
データ分析: Jupyter Notebook
“Notebook"というツールはあまり馴染みが無いかもしれませんが、いわゆる普通の作業記録のためのノートのデジタル版と言ってもいいでしょう。分析用の"Notebook"は登録したコマンドとその応答結果を記録し、再現性のある分析と文書化を行えるようにしたものです。
Jupyter Notebookは、もともとはpython用に開発されたIPythonをベースに2015にリリース。作業に関するコメントの他に、R, Python, Scalaのコードを書いて実行する事が出来ます。またグラフの描画も可能です。
また作成したノートは他の人と共有することができるため、作業記録の共有や分析方法のハンズオンなどに利用することもできそうです。
データ分析: Zeppelin Notebook
こちらもJupyter同様に、作業を記録するためのツールであり、2014年にASFインキュベーションプロダクトになりました。
Webブラウザからの操作で、Python, SQL, Scala, shellコマンドなどが利用できます。
これらのツールを利用するためには、まずは環境の準備を自前でやろうとすると、それだけで結構めんどうなのですが、サインアップすればすぐに利用できる環境というのは魅力的です。
そんなに使い込んでいないため、業務でバリバリ使えるのかは分かりませんが、少なくともお手軽にRやSpark、Pythonを利用した分析を学習するための環境としては非常に優れていると感じました。