こんにちは、株式会社サイバーエージェント 秋葉原ラボの松井美帆です。

私は今年4月から秋葉原ラボのコーディネーターとして勤務しております。「秋葉原ラボの社内外への認知向上や、秋葉原ラボプロダクトのサービス導入やその後の運用等がスムーズに運ぶように各種”コーディネート”をすること」がメインのミッションです。まだAWSやGCPがインフラの主流ではない時代に2年ほどインフラエンジニアをしておりましたが、現在は秋葉原ラボ唯一の非エンジニアです。今後積極的に、秋葉原ラボの活動をレポートしていければと思っております。

 

さて今回は、2018年7月5日に行われた「Data Engineering and Data Analysis Workshop #5」のレポートを、お届けします。

毎度のご紹介となりますが、秋葉原ラボは「分散システム・検索・機械学習・データマイニングなどを扱う研究開発組織」です。「Data Engineering and Data Analysis Workshop」は秋葉原ラボの所属メンバーが中心となって開催する勉強会で、サイバーエージェントのデータ分析基盤とデータ活用、及びそれらのための技術をテーマにしています。

第4回(前回)は、ChainerMNの開発者である株式会社 Preferred Networksの秋葉 拓哉さんをゲストにお迎えして「春の機械学習祭り 〜Data Engineering & Data Analysis WS#4〜」を開催し、たくさんの皆様にご来場いただきました。当日は開催タイトルにちなんで(?)、山崎製パンのランチパックが配布されたそうです。

それでは前置きが長くなりましたが、当日の様子や資料も交えて「Data Engineering & Data Analysis WS#5 〜ストリーム処理 & Google I/O報告〜」の発表内容をお伝えします。

発表内容

ログ解析基盤におけるストリーム処理パイプラインについて

斎藤の発表の様子
斎藤の発表の様子

秋葉原ラボの斎藤貴文より、秋葉原ラボで開発・運用するログ解析基盤におけるストリーム処理パイプラインについての発表がありました。

ストリーム処理パイプラインは社内の様々なデータ処理基盤におけるデータの鮮度を保つために、非常に重要な役割を担っています。秋葉原ラボにおけるストリーム処理パイプラインの変遷、その過程で生じた「遅延ログ問題」とその解決策、そしてストリーム処理に関する現在の取り組みについて具体的に紹介させていただきました。

サイバーエージェントの機械学習エンジニアが体験したGoogle I/O 2018

數見の発表の様子
數見の発表の様子

秋葉原ラボの數見拓朗からは、5/6-5/9にGoogle I/O 2018で紹介されたML/AIに関連する商品・OSS・技術の紹介を、現地で撮影した写真を交えて発表させていただきました。サイバーエージェントのメディア統括本部では、毎年各部署から代表のエンジニアが数名、Google I/Oへ参加しています。現地で得た最新の技術情報を社内外にフィードバックすることも、重要な業務の一つです。

ML/AI関連のセッションは昨年と比較して倍以上に増加したそうで、ML/AI関連技術への注目度の高さが伺えます。

Apache NiFi + Tensorflow + Hadoop : AIサンドイッチの作り方

ホートンワークスジャパンZhen様、発表の様子
ホートンワークスジャパンZhen様、発表の様子

最後はホートンワークスジャパンのZhen様より、「Machine Learning / Deep LearningのWorkflowをいかに統合するか」という課題について「AIサンドイッチ」というとてもキャッチーなワードを使ってご発表いただきました。BigDataを扱うAIサンドイッチ(システム構成)の例として、Apache NiFi + Tensorflow + Hadoopの構成を具体例としてお話いただきました。

 

最後に

発表終了後は、多くの方々に懇親会にご参加いただきました。発表者を囲んで様々な議論が交わされていました。

CADEDA#5懇親会の様子
CADEDA#5懇親会の様子

なお、3ヶ月に1回の開催を目標にしている本勉強会ですが、次回は10月ごろに実施予定です。(多少前後する可能性あり…。)connpass の CyberAgent グループ のメンバーに加わるとイベント通知されると思いますので、よろしければご登録ください!