Data Engineering and Data Analysis Workshop #7 を開催しました

こんにちは、株式会社サイバーエージェント　秋葉原ラボの上田紗希です。
今回は2018年12月14日に行われた「Data Engineering and Data Analysis Workshop #7」のレポートをお届けします。
秋葉原ラボは「分散システム・検索・機械学習・データマイニングなどを扱う研究開発組織」です。「Data Engineering and Data Analysis Workshop」は秋葉原ラボの所属メンバーが中心となって開催する勉強会で、サイバーエージェントのデータ分析基盤とデータ活用、及びそれらのための技術をテーマにしています。

前回の第6回では、秋葉原ラボのメンバーより「番組宣伝に関するAbemaTV分析事例」「AWAにおけるデータ利活用の取り組み」、また株式会社ファームノートの河野信輝さまより「ファームノートにおけるデータ分析およびデータ基盤の紹介」、株式会社博報堂の藤原晴雄さまより「Saya Projectの紹介」の4つの発表が行われました。こちらに第6回のレポートがありますので、ご興味をお持ちの方はご覧ください。

さて、7回目の開催を迎えた今回は、秋葉原ラボのメンバーよりRecSys 2018ならびにAWS re:Invent 2018の参加レポートを行うと共に、AWSの鮫島正樹さまをお招きして「小規模画像データセットに対する機械学習のアプローチ」というテーマでお話しいただきました。それでは当日の様子や資料も交えて、発表内容をお伝えします。

発表内容

AbemaTVレコメンド開発エンジニアによるRecSys 2018参加レポート

秋葉原ラボの前田英行からはRecSys 2018の参加報告と論文紹介をさせていただきました。

RecSysは推薦システムのトップカンファレンスであり、12回目となる今回は10/2-10/7にバンクーバーで行われました。本カンファレンスでは過去最高の800人超の参加者が集まりましたが、そのうちの73%が企業からの参加となっています。
論文紹介では、既存のアルゴリズムから出力されたログを用いて学習する際に、そのバイアスを考慮した評価方法や、最適化手法に関する論文、また、レコメンドに対するユーザの無反応理由や満足度に対する実験調査についての論文等をピックアップして解説しました。さらに、Industry sessionから発表のあった、NetflixやSportifyで実際用いられているレコメンド手法についても紹介させていただきました。詳細な解説についてはスライドをご覧ください。
RecSys2019は9/16-9/20にコペンハーゲンにて開催されます。

AbemaTV レコメンド開発エンジニアによる　RecSys 2018 参加レポート from cyberagent

機械学習エンジニアを魅せた AWS の再:発明とは？〜re:Invent 2018 参加レポート〜

秋葉原ラボの角田孝昭よりAWS re:Invent 2018の参加報告と機械学習関連のアップデートについての発表がありました。

re:InventはAmazon Web Servicesの最大規模のユーザカンファレンスで、re:Invent 2018では世界から5万人以上が参加し、会期中のセッション数は2000以上にのぼりました。
機械学習に関連するアップデートも多方面に渡って多く発表されており、本発表ではこの中から、①機械学習技術を簡単に活用できるAPI、②機械学習向けインフラ、③機械学習の様々な過程を便利にするサービス、の3つの軸で紹介させていただきました。
例えば①機械学習技術を簡単に活用できるAPIでは自社データに特化したレコメンドやパーソナライズを簡単に行えるAmazon Personalizeの紹介、③機械学習の様々な過程を便利にするサービスでは学習データ作成のためのアノテーション環境であるAmazon SageMaker Ground Truthや強化学習（RL）を手軽に実行可能なSageMaker RLの紹介がされています。
各サービスのより詳しい説明や他のアップデートについての紹介も以下の資料でされていますので、ご参照ください。

機械学習エンジニアを見せたAWSの再：発明とは？〜re:Invent 2018 参加レポート〜 from cyberagent

小規模画像データセットに対する機械学習のアプローチ

最後はAWS 鮫島正樹さまより、「小規模画像データセットに対する機械学習のアプローチ」と題してご発表いただきました。

現実の画像に対して機械学習を適用したい場合、学習に十分な数の画像を用意する事が困難である（＝画像データセットが小規模である）という問題が発生するケースが多くみられます。このような問題に対処するために、既存の画像を加工したり、既存の画像に似た画像を自動生成することで学習に利用可能な画像のバリエーションを増やすData Augmentationの手法や、小規模な画像セットに強いモデルを作る各種Deep Learning手法をご解説いただきました。
小規模な画像データセットに対してDeep Learningを用いる場合、全クラスに対する分類モデルではなく、既知の画像のうち似ているものを参考にして分類する手法が有効だそうです。まずはAugmentaionによって最低限の画像を生成しつつ、有効なDeep Learningのモデルを選択することが重要とのことです。
以下のスライド内に具体的な手法の解説がありますので、ぜひご覧ください。