Spark Summitとは

こんにちは、shota_suzukiです。
今回は、6月6日から6月8日までサンフランシスコで行われた「Spark Summit 2016」の参加レポートをお届けします。

IMG_0346.jpg

『Apache Spark』はここ数年ビッグデータ、機械学習分野で非常に注目されているソフトウェアです。Sparkはインメモリで処理を行うので、Hadoopに比べて実行速度が速く、弊社でもこれから積極的に使用していこうと考えております。
Spark Summitは最近では年3回(サンフランシスコ、ニューヨーク、ヨーロッパ)開催されています。今回の会場は「HILTON SAN FRANCISCO UNION SQUARE」で、昨年と同じようです。今回の参加者は2500人以上もいたそうです。初日はトレーニングのみだったので、実際のセッションは6月7日と6月8日の2日間でした。
タイムスケジュールはこちらです。
ビデオとスライドは、2週間以内にアップロードされるそうです。

P6080665.JPG

トレーニングの様子

まだSparkの使用歴が浅いこともあり、今回はトレーニングから参加しました。トレーニングは以下の3つが開催され、どれも満席だったようです。

  • Apache Spark Essentials
  • Data Science With Apache Spark
  • Advanced: Exploring Wikipedia With Spark

IMG_0348.jpg

Databricksのweb上からSparkを操作できるノートブック形式のもので、トレーニングは行われました。データサイエンティストには馴染み深いJupyterのようなものから、クラスタのことを気にすることなくSparkの操作が行え、なかなかに便利でした。
Spark Essentialsのコースでは、Pythonを使ってRDDやDataframeでの操作から、Spark Streaming・MLlibを使った機械学習まで、幅広い範囲がカバーされておりました。少し広くやりすぎたせいで、最後の方は駆け足になってしまいましたが。

セッションの様子

朝にキーノートがいくつかあり、その後は5セッションが並行で行われました。
今回のキーノートにはJeff Dean氏やAndrew Ng氏などといった機械学習の重鎮も登場しており機械学習分野におけるSparkの注目度が上がってきていることを感じました。ちなみに、Jeff Dean氏は見事にTensorFlowについてだけ話をしていきました。
Databricksのキーノートでは、トレーニングでも使われていたDatabricks Cloudでtwitterのデータを分析するデモが行われていました。

私自身はデータエンジニアであるので、データ処理やStreaming処理系のセッションを中心に聴きました。その中で、幾つかのセッションを簡単に紹介します。

Five Lessons Learned In Building Streaming Applications At Microsoft Bing Scale

KafkaとApache Sparkによりデータパイプラインを作成し、その時に発生した問題とその対処方法の紹介でした。Sparkの話というよりは、Kafkaの話が多かったです。この規模だからこそ発生する問題だと思うのですが、なかなかおもしろかったです。

Interactive Visualization of Streaming Data Powered by Spark

Spark Streamingでデータのニアリアルタイム処理を行い、ダッシュボードに表示できるようにしていました。地図上に数秒おきにデータをプロットして更新していくのは、情報がよくわかり、良いビジュアライジングの例だと感じました。弊社でもリアルタイムなデータ処理については力を入れているところだったので、参考になりました。

Operational Tips For Deploying Apache Spark

Databricks社による、Sparkを運用するときのチューニングに関するティップスでした。実際に本番に投入する段階では参考になる情報でしょう。このセッションは、すでにスライドが公開されているので、詳細はこちらを参照ください。

最後に

もはやSparkは、データ解析の分野では必須のものとなっていることを感じました。またデータパイプラインをKafkaとSparkの組み合わせで使っている企業が非常に多かったです。これから私たちのチームでもSparkを使う機会が増えていくと思うので、何かしら事例をこのブログで共有できればと思っています。