strata

こんにちは、神里です。
普段はデータ解析とその周辺業務に従事しています。
9月25日から28日までニューヨークにて行われた『Strata+Hadoop World in New York』に行ってきました。今回はその際のレポートをお届けしたいと思います。

Strata+Hadoop Worldとは?

Strata+Hadoop World とは、アメリカのメディア企業・O’REILLYが主催しているHadoop最大のイベント。シンガポール、サンノゼ、ロンドン、北京、ニューヨークなど世界5都市で開催されています。最近はHadoopというよりは、その先の技術がメインに話されることが多い印象です。このイベントではビッグデータのトレンドが発表されるため、世界の潮流を調査するために行ってきました。

Strata+Hadoop Worldでは、いくつかコースが用意されています。今回僕は、前半2日間はトレーニングに、後半2日間はカンファレンスに参加しました。

Sparkの理解を深めるためにトレーニングに参加

トレーニングでは3つのコースが用意されていました。僕が参加したのは“Spark foundations: Prototyping Spark use cases on Wikipedia datasets”というコース。分散クラスタでのビッグデータ分析を高速に行うことができるオープンソースソフトウエア・Sparkの基礎的な理解を深めるためのコースです。講師はDatabricks社の人が務めていました。

トレーニングの内容は、「Sparkとは何か」という講義からはじまり、その後、Databricks社が用意したクラウド上の環境でSparkの使い方の実践的なレクチャーを行い、最終的にはWikipediaを用いた分析を行うというものでした。教材はDatabricks社が用意したデータを使用し、最初はコマンドのレクチャーから入り、最後は設問に答えるという流れになっており、トレーニング用に制作されたしっかりとした教材があることは効率的で素晴らしいと思いました。僕は、これまで本格的にSparkを使ったことがなかったのですが、2日間のトレーニングを通して、使用イメージを掴むことができるようになりました。

Strata+Hadoop Worldで気になったセッション

カンファレンスは、Spark、機械学習、リアルタイム処理系のセッションを中心に回りました。

最初に参加した“The state of Spark and what's next after Spark 2.0”は、「現状のSparkのステータスとSpark 2.0以降でどんなことができるようになるか」という話題でした。実務面では、Rのサポートを強化していく話や、今後RDD (Resilient Distributed Dataset)ではなくDataFrameの使用を推奨し、さまざまな拡張をしていくという話が役に立ちそうでした。
また、Sparkの仕組みを理解する上で、Project TungstenやKryo Serializationを使った最適化は非常に興味深かったです。

盛況だったのが、佐藤一憲さん(Google社)による“Machine intelligence at Google scale”というセッション。Googleの開発した人工知能ライブラリ・TensorFlowを日本の農業に活かし、きゅうりの出荷の際に画像を認識して判別を行うという話でした。TensorFlowは誰もが使えるというメッセージを持っているので、農家の人などが出てくると大変わかりやすく、非常に盛り上がっていました。

ストリーミング処理の群雄割拠

カンファレンスでの収穫は、主にふたつあります。
まずは、“The state of Spark and what's next after Spark 2.0”やトレーニングの内容からしても明らかなように、「Sparkを本格的に使っていくことができそう」ということ。
もうひとつは、「ストリーミング処理が群雄割拠だ」ということです。このカンファレンスで登場したものだけでも、Storm、Spark Streaming、Flink、GoogleによるBeamなど、とにかくソリューションがたくさんあります。
Strata+Hadoop Worldの中でBeamのセッションが多数あったことからも、Googleが力を注いでいるのはわかりました。Beam modelの論文が昨年発表されたばかりのため、浸透するまでにはもう少し時間がかかるかもしれません。ストリーミング処理のソリューションは、これからどんどん統廃合が進んでいくのではないかと思います。

最後に

僕は今回で3回目の参加だったのですが、初めて参加した際はHadoopの活用がメインのカンファレスだったものが、今回はSparkやストリーミング処理のセッションが多くなり、改めて世界的な潮流を知る良いカンファレスだと感じました。