はじめまして、秋葉原ラボの福田 鉄也と申します。本記事は、6 月 27 日 (火) に開催された「Data Engineering and Data Analysis Workshop #1」のレポートです。

秋葉原ラボは、分散システム、検索、機械学習やデータマイニングなどを扱う研究開発組織です。「Data Engineering and Data Analysis Workshop」は、秋葉原ラボの所属メンバが中心となって開催する、サイバーエージェントのデータ分析基盤とデータ活用、およびそれらのための技術についての勉強会です。第 1 回となる今回は、Cloudera株式会社より有賀様をゲストスピーカとしてお迎えしました。

Data Engineering and Data Analysis Workshop #1 当日の様子
Data Engineering and Data Analysis Workshop #1 当日の様子

資料

Cloudera Data Science WorkbenchとPySparkを使って好きなPythonライブラリを分散で使う

Cloudera株式会社より、有賀様のご発表です。Cloudera Data Science Workbench について、PySpark クラスタ上で MeCab を実行するデモを交えながらのご発表でした。

内製パッケージによるHadoopデータ解析基盤の構築と運用

秋葉原ラボが運用するデータ解析基盤 Patriot における、内製パッケージによる構築と運用についての発表です。Apache Bigtop によるパッケージの内製化や、OSS に対する取り組みについて紹介されていました。

A.J.A. Recommend Engine における文書推薦について

最後は自分の発表で、A.J.A. Recommend Engine のバックエンドとなる文書推薦システムで利用しているアルゴリズムや、ミドルウェアについて紹介しました。

おわりに

「Data Engineering and Data Analysis Workshop」は、今後も 3 ヶ月に 1 回程度のペースで開催していく予定です。ご興味をお持ちになった方は、是非とも弊社の connpass グループをチェックしてみてください。