こんにちは、株式会社サイバーエージェント 秋葉原ラボの津田 均です。2017年9月22日に行われた「Data Engineering and Data Analysis Workshop #2」のレポートをお届けします。

秋葉原ラボは、分散システム・検索・機械学習・データマイニングなどを扱う研究開発組織です。「Data Engineering and Data Analysis Workshop」は秋葉原ラボの所属メンバーが中心となって開催する勉強会で、サイバーエージェントのデータ分析基盤とデータ活用、及びそれらのための技術をテーマにしています。

第1回(前回)は Cloudera Data Science Workbench、内製パッケージによるHadoopデータ解析基盤、文書推薦にまつわるアルゴリズムの紹介がありました(第1回の様子はこちら)。

今回は同じサイバーエージェント社内の事業部であるアドテクスタジオのメンバーも参加し、サイバーエージェントの様々な事業部での取り組みを参加者にお伝えできました。

なお、3ヶ月に1回の開催を目標にしている本勉強会ですが、次回は年末〜年始に実施予定です。connpass の CyberAgent グループ のメンバーに加わるとイベント通知されると思いますので、よろしければご登録ください!

それでは当日の様子や資料も交えて、発表内容をお伝えします。

発表内容

「アドテクスタジオのデータ分析基盤について」

伊藤の発表の様子
伊藤の発表の様子

アドテクスタジオの伊藤和宏から、同組織内でのデータ分析基盤について発表がありました。

アドテクスタジオは、サイバーエージェントグループのアドテクノロジー分野における各サービスの開発を行うエンジニアの横断組織です。同組織内には様々なサービスやプロジェクトが存在していますが、それぞれが分析基盤を構築していたことがあり、共通して分析できるデータもあると考えたことから、アドテクスタジオ全体で利用できるデータ分析基盤を構築しています。

アドテクスタジオがどのようなデータ分析基盤を開発しているか、また共通基盤を広める上での課題なども含めて発表がありましたので、ぜひご覧ください。

 

「最新版のHadoopのクラスタを運用して得られたもの」

梅田の発表の様子
梅田の発表の様子

秋葉原ラボの梅田永介から、データ解析基盤 Patriot を運用して得られた知見や、内製パッケージによる運用のメリット・デメリットの発表がありました。

第1回では秋葉原ラボの善明晃由より、同組織が運用するデータ解析基盤 Patriot が Apache Bigtop を利用した内製パッケージで Hadoop エコシステムを構築していると発表がありました。

今回の梅田の発表では、第1回から今回の約3ヶ月の間に、内製パッケージに当てられたパッチの紹介があります。運用事例の紹介では、スレーブサーバがカーネルパニックを起こした問題や、DataNode のアップグレード時に起きた問題、ZooKeeper に接続できない問題など、運用上発生したトラブルが丁寧に解説されていますので、ぜひご覧ください。

「マッチングサービスのKPIの話」

和田の発表の様子
和田の発表の様子

秋葉原ラボの和田計也より、KPI ツリーの重要性を構造方程式モデリングを利用して説明がありました。サイバーエージェントの新しい注力事業であるカップリングサービスの説明も交え、構造方程式モデリングの構築例が紹介されています。

ビジネスにおいてKGI (Key Goal Indicator) と KPI (Key Performance Indicator) が重要であるとはよく言われますが、KPI を設定して KPI ツリーを構成しても、どの KPI がより重要であるかは直接知ることは難しい場合が多いです。また KPI が多すぎてもどこに注目して良いかが分からなくなってしまうため、KPI 間の関係性を知ることが必要です。

構造法的式モデリングとは、重回帰分析や因子分析、パス解析などの機能を併せ持つ統合手法で、今回は特にパス解析について取り上げられています。ぜひ以下の資料で具体的な方法についてご覧ください。

 

おわりに

懇親会の様子
懇親会の様子

「Data Engineering and Data Analysis Workshop」は、今後も3ヶ月に 1回程度のペースで開催予定です。ご興味をお持ちになった方は、是非とも connpass の CyberAgent グループ をチェックしてください。