はじめに
こんにちは、AI事業本部の石原です。9/15(木)に行われる、CA 1Day Youth Boot Camp現場で使える!入門編・データサイエンスの理論と実践というイベントにて講義を行わせていただくことになりましたので、今回はイベント内講義の一つ「データモデリング入門」についてご紹介します。このイベントの講義パートは、「強化学習」著者で、AI Lab森村さんによる「強化学習入門」と、石原による「データモデリング入門」の2本立てで行う予定です。森村さんについては「強化学習」読者の方や機械学習について自学されている方はご存知かと思いますので、今回は「データモデリング入門」についてご紹介いたします。
今回の講義「データモデリング入門」は、2022年にサイバーエージェントに新卒入社し、AI事業本部に配属となった新卒エンジニアのために設計されたものを、外部公開用に再構成しました。
この記事は、当日の講義内容から一部抜粋し執筆しました。9/15(木)CA 1Day Youth Boot Campについて皆様に興味を持っていただくきっかけになれば嬉しいです。
講義の目的
サイバーエージェントはこれまで、広告やメディアなど各ドメインにおいてデータサイエンスの導入を盛んに行ってきました。また新卒採用においても機械学習エンジニア/データサイエンティストの母数は年々増えており、大学での研究や個人開発において機械学習を扱った方が社会で活躍する場としてサイバーエージェントを選んでいただく事例が増えてきました。
一方、実際のビジネス現場においてはデータ条件/ビジネス条件/リソース条件など様々な制約があります。これら制約下でのデータサイエンスの導入については、弊社においても全ての事例で完璧な導入が行えたわけではなく、様々な要因に振り回されながらも実現してきました。
そうした背景のもと、AI事業本部では配属された新卒エンジニアが同じ轍を踏まず、よりスムーズに事業開発へと取り組むことを目的に、本講義「データモデリング入門」を通して「サイバーエージェント内でこれまで実際にあったデータサイエンス導入の障壁」および「それらの障壁に対してどのような知見があるか」を講義し、新卒エンジニアが現場で知を活かして実践してきました。
講義内容
本講義は、サイバーエージェント AI事業本部 データサイエンティストの金子さん・石上さんを中心に2021年に作成されたDS/ML向け新卒研修を、石原が再構成したものになります。
講義は大きく分けて2つのテーマを扱います。
- 機械学習のモデリング全般(特徴量作成、アルゴリズム、評価指標)の振り返りと事例紹介
- 機械学習のビジネス応用に必要なDS/MLのスキル
ここからはそれぞれのテーマを実際の講義資料と共に紹介したいと思います。
機械学習のモデリングと事例紹介
前半パートでは、機械学習モデルの実装に必要な基礎知識と事業部における実用例を紹介します。直感的に理解しやすい話であったとしても、気をつけるべきポイントを押さえられていないと、適切な学習ができません。成功事例・失敗事例を通して、ビジネスへ機械学習の基礎的な知識を適用する準備ができることを目指します。
例えば精度指標のパートでは、精度指標と解くべきタスクの関係性を振り返ります。求められている課題に基づいて精度指標を適切に決めることが機械学習を実運用するための第一歩となります。本講義ではこれらの精度指標の代表的な例や社内での実例を通して学生である受講者の皆様が実際にビジネスにおいて精度指標を設定するということへの知見を深めていただきます。
さらに、訓練/評価データの分割方法など、モデルの学習に関連した注意事項などを紹介します。現場でモデルを作る際に、概念自体はわかっていても時々やってしまうミスの一つだと思います。実例を踏まえながら理解してもらうことを目指します。
機械学習のビジネス応用に必要なデータサイエンティストのスキル
後半では、データサイエンティストとして機械学習モデルを「ビジネス改善」に繋げるために必要な考え方についてお話します。 「ビジネス改善」はサイバーエージェントのデータサイエンティストがもっとも大切にしている軸です。本講義と同時に新卒が受講する「DSOps研修」では「ビジネス改善」をテーマに10週にわたるプログラムを行っています。(参考: ビジネスの現場で価値を出すデータサイエンティストへーサイバーエージェントの「DSOps研修」とはー) 本講義ではDSOps研修と前半のモデリングを関連づける形で、「ビジネス改善」について説明をします。
サイバーエージェントではしばしば、「KPI」「KGI」と呼ばれる指標がビジネスメンバーによって設定されますが、データサイエンティストが設定する「精度指標」がこのKPIとイコールになることも少なくありません。
本講義では、機械学習モデリングを活用した「ビジネス改善」について具体例を混ぜながら紹介し、データサイエンティストに求められる職務と役割についてお話しします。
また、サイバーエージェントの実例を通してビジネス改善を行うためにデータサイエンティストがどのような手法を取ることができるかを話します。
まとめ
CA 1Day Youth Boot Campで実施する講義「データモデリング入門」の一部を紹介しました。CA 1Day Youth Boot Camp現場で使える!入門編・データサイエンスの理論と実践は、社内の新卒エンジニア向け研修を外部公開する貴重な機会であり、今回は本講義のフルバージョンと森村さんによる「強化学習」講義をお届けします。
正しいデータサイエンスの実用には、正しいデータサイエンスについての知見が必要不可欠です。今回のイベントを通して、データサイエンスの面白さと実用の奥深さ、両方を是非体感していただければと思います!
当日は交流会など社員の話を聞くタイミングも設けられております。この機会に是非ご参加ください!
CA 1Day Youth Boot Camp ご応募はこちら
https://www.cyberagent.co.jp/careers/students/career_event/detail/id=27823