1. DSOps研修のイントロ
はじめまして,AI事業本部 Dynalystでデータサイエンティストをしている金子です.
最近Twitter上などで,「データサイエンティストとはなんなのか」,「データサイエンティストとはかくあるべき」といった議論を見かけます.最近でも以下のようなBlogや記事で「泥臭い現場で働く実務者としてのデータサイエンティスト」とはどのあるべきか,というような話題が触れられ,twitterなどを中心に話題になっていました.
https://qiita.com/He110w0r1d/items/054f988e9a9b01c46572
AI事業本部では,3年ほど前からビジネスへの貢献や課題解決を,「実務者としてのデータサイエンティスト」の大まかな役割として設定し,さまざまな活動を行ってきました.今回の記事では,その中の中心的な活動の1つであるDSOps研修という新卒DS向けの研修について紹介します.
DSOpsというのは社内で利用している独自の用語で,ビジネスにおけるデータサイエンスでの,データサイエンス技術以外でのビジネス活用のためのものを示すような意味で使われています.CyberAgentのAI事業本部として上記の「実務者としてのデータサイエンティスト」とはどうあるべきかという問についての一つの回答になるのではないかと思います.しかし,後述するようにこれは当然一般的な回答ではなく組織やプロダクトの規模や収益モデルなどによっても答えは変わります.あくまでより発展途上のデータサイエンティスト研修の話として読んでもらえれば幸いです.
2. なぜDSOps研修なのか?
「実務者としてのデータサイエンティスト」となるための課題
冒頭で引用した記事では,「学術・技術的な側面から見た場合のデータサイエンティスト」と「泥臭い現場で働く実務者としてのデータサイエンティスト」との違いについてが話の中心だったように思います.内容をおおざっぱにまとめると,データサイエンティストとしてビジネス的な価値を出すには面倒くさい作業が多かったり学術的に鮮やかに解ける設定の問題ばかりじゃありませんよ,というようなものだったかと思います.
DSOps研修の出発点はかなり似た違和感から始まりつつも,もう少し前段階に戻って「データサイエンティストがビジネス価値を出すために,そもそも何を知っていないといけないか?」という問いに根ざしています.
知らなければならないことは,高度な予測モデルを構築するためのディープラーニングフレームワークの扱い方でしょうか? それとも単調で泥臭いPandasでの前処理コードの書き方でしょうか? これらは場面によって必要になるのは当然として,これらは全て「ビジネス価値を出すための技術」だと私達は考えています.
これらの技術に関しては,教科書やblogなどで何らかの対価を支払えば学ぶことが近年はより容易になりつつあります.しかし,これらの技術を(一部の方はこの言い換えに抵抗を感じるかもしれませんが)道具として使う場合に,その道具を用いる方法について公に語られたり論じられる場面はあまりありません.
要するにKPI改善,つまりいくら売り上げ積んだとか利益積んだとかコスト削ったとかとか,そういうことの方がよっぽど大事という課題感に対して,実は技術を学ぶだけではダメでその使い方や使う場所の選び方を学ぶことが大事ということです.
そして,これらの技術の使い方として以下のことを先輩社員が実務でのタスクについて講義形式でまずは教えます.
- 自分が所属するプロダクトにおいてそのビジネスモデルはどのようになっているか?
- その収益モデルのどこに技術を用いて改善を加えればKPI改善を最大化できるか?
- そもそもKPI自体が事業貢献のために適切なもので,また改善が可能なものなのか?
- 実際にその改善を成すために不足していることはないのか?
- その改善をどのように計測するのか?
- そもそも自分のタスクはKPI改善に貢献するものなのか?
そして講義後に,新卒DSにプロダクトjoin後のタスクについてディスカッションを一緒に行うことで事業部内で正しく「実務者としてのデータサイエンティスト」として成長するためのカルチャーやマインド,技術を身につけるための研修がこのDSOps研修だと思っています.
3. 実際に研修で何をやったのか?
偉そうな事を言っていて,実際にどんな研修をやっているのか全然わからないじゃないか,というツッコミを頂きそうですが,この記事では初めてDSOps研修での講義スライドを公開用に修正したものを一部公開,また公開できないものについては講義について簡単な概要を記載したいと思います.
今年に関しては講義の構成としては,
前半1時間
- 事前に撮影したVideoを用いてスライド形式で講義
- スライド最後にあるQuestionについて,講義担当者 & 新卒DS全員でディスカッション
後半1時間
- チームに別れ,新卒DSが自分のタスクについてホワイトボード(フルリモート時はスライド)でプロダクトのビジネスモデルを交えて説明する
- このタスクをやると本当にKPI改善に貢献するのか,よりよいやり方はないのか? ということについて議論する
というようなものでした.前半の講義に使用したスライドと,その質問を公開しています.
第1回 改善に向けたData Science
スライド作成 : 安井 翔太
第2回,第3回 AI事業本部のDS
Dynalyst
スライド作成 : 加藤 直
AI Shift
AI Shiftでは対話システムを軸にチャットボットとボイスボットという2つのプロダクトが存在します.既存事業としてのチャットボットがあるなかでどのようにボイスボットの立ち上げを行ったかとその際のデータサイエンスチームとしての動きについてお話をしました.また,立ち上げ機からデータサイエンティストが関わることでその後のデータサイエンスタスクへどのようにつながったのかもお話しました.
Air Track
Air Trackは広告によって店舗に来店させること目指すプロダクトです. 現在,私たちは来店最大化を目的に機械学習を用いた広告配信を行っており,配信ロジックに関する施策検証をたくさん,継続的に試せることが必要だと考えMLOpsに取り組んでいます. MLOpsに取り組む価値をどうビジネスサイドに説明をしてきたか,どのように基盤開発を進めてきたかをお話しました.
極AI
極予測AIのプロダクト概要とCAの広告代理店の仕組みに極予測AIを組み込んだ時のお金の動きについて説明しました. また,コピー素材開発のプロダクト概要とその中でデータサイエンティストがどのようなタスクを行なっているか,現在どのような課題を抱えているかについて説明しました.
第4回 統計, A/Bテスト, 因果推論の基礎(理論編)
スライド作成 : 安井 翔太
第5回 統計, A/Bテスト, 因果推論の基礎(実践編)
スライド作成 : 世古 裕都
スライド作成 : 金子 雄祐
第6回 機械学習を用いた意思決定, DSと実装
機械学習を用いた意思決定
スライド作成 : 阿部 拳之
DSと実装
スライド作成 : 金子 雄祐
第7回 実務における論文
データサイエンティストの業務には論文が非常に深く関与し,より良い論文との出会いがより良い成果に繋がることも少なくありません.この講義では,実務をこなしながら論文を効率的に読むコツや,注目しておくべき著名な学会の紹介に始まり,どの様に論文と関わるべきかをプロダクト開発に関わるデータサイエンティストの目線から解説しました.また,論文を読んだり書いたりすることでデータサイエンティスト個人や開発チーム,プロダクトが得る恩恵について実例を交えながら解説しました.
第8回 可視化
前半
スライド作成 : 暮石 航大
後半
可視化の後半では,プロダクトの意思決定者に分析結果を適切に伝え,アクションを起こしてもらうための可視化について扱いました.伝わりやすい可視化のポイントや,誤った可視化がミスリードに繋がることを,プロダクトの事例を交えて紹介しました.ディスカッションでは「意思決定者への提案時の伝え方」をテーマに,結論を述べた上で根拠を示す「結論ベース」と,分析の流れを順々に説明する「ストーリーベース」の良し悪しについて議論しました.結論ベースでは,結論を端的に求められるシチュエーションでは有効だが,意思決定者からの信頼が低い場合には受け入れてもらえない可能性があるというデメリットが挙がった一方で,ストーリーベースでは分析結果の信頼を得ることができるが,提案までの流れが冗長になるというデメリットが挙がりました.時間制約と意思決定者との関係性に応じて,適切な伝え方を選択することが求められます.
4. DSOps研修の経緯と実施後の変化
DSOps研修は3年目で,元々の成り立ちは事業部内の新卒研修とは別にデータサイエンティスト用の研修を行いたいということで,『効果検証入門』などの著者である安井が中心となり,同期の藤田や私などが講義側として行ったものでした.2年目のリーダーは藤田が行い現行の形の雛形を作り,3年目のリーダーは私が行い,メディア事業部の新卒DSも交えて全社化を目指すような変更などを行いました.
研修を実施してどうなったのか?
DSOps研修は来年で4年目を迎えますが,この研修をやって何が変わったのか? という話を最後にして終わろうと思います. 本当はなんらかの計測をやっておけばよかったのですが,そういうことをやれなかったので(主観が入り混じった),毎年研修後に参加者も含めて実施しているKPTで出たフィードバックのいくつかを紹介したいと思います.
新卒DS側の感想
「全員がマネージャーくらいの視点で課題を考えて仕事に落とし込めないとDSとしてやってくのは厳しいよねということに気が付かされた研修だった」という感想をもらいました.研修の中身としては確かに事業構造についての理解や事業戦略を考えた上でタスクを作っているので,真にビジネス貢献が可能なDSというのはどのようなものかというのを運営も考えさせられました.
また,今年の新卒DSのタスクについても,機械学習モデルの精度改善をするときにそれが売上とどう影響するのか意識して考えるようになったり,直接影響しない場合はどういう意義でこのタスクをやるのか解像度高く考えるようになりましたというような話を聞くことができました.
事業部内での変化
事業部内では,DSOps研修を始めてから事業部でA/Bテストのカルチャーが根付いたことが非常に大きかったと思います.我々がこの研修を始めたときは,A/Bテストをきちんとやって効果検証を行うことを文化づくっているプロダクトは事業部内では少数派でした.研修を始めて以降,新卒DSの間でA/Bテストの重要性の認知が大きく上がりました.その結果,これはCyberAgentの文化によるところも大きいと思いますが,彼らがボトムアップで事業責任者や開発責任者に対して効果検証の重要性やそのためのA/Bテスト機構の必要性についてを主張するという流れが産まれました.実際にA/Bテストを作るという段階で,A/Bテストの Next Expertである藤田やData Science Centerが議論や設計として入ることで今では事業部内では当たり前のようにA/Bテストを行うというカルチャーが根付くまでに至りました.このとき,適切にサポートに入らないと結局A/Bテストの運用にまで至らなかったり,適切に運用されていないオレオレA/Bテストシステムが産まれるリスクも有るため,このような研修で需要を作ったばあい,必ず供給のための機構もつくっておかないといけないという教訓を得ました.ディスカッションのパートを挟んでることで,もしA/Bテストを自分のプロダクトで行いたいなら誰に相談すべきかがわかりやすかったということもあったようです.
講義者側の実感
私は今Dynalystという広告配信プロダクトでDSチームのマネージャーをやっています.基本的には,事業戦略の中でのトップダウンのタスクと,メンバーが自身でプロダクトの課題発見を行ってデータサイエンスの手法でその課題解決を行うというボトムアップの形でのタスクの2つの形で,各メンバのタスクがあります.マネージャーとしては,このDSOps研修のおかげで若手メンバからボトムアップで上がってくる課題と解決策の質が非常に高くなっているなというのが実感としてあります.本質的なKPI改善につながる仕事を提案される事が多く,ブラッシュアップの議論も積極的に行えるのでマネージャーとしては正直に言って非常に楽なのですが,若手のうちからこのような質の高い仕事を自分で見つけてきて実践できるというのは,データサイエンス組織のカルチャーとして非常に強いのではないかと思います.
一方で,DSOps研修のリーダーを今年やらせていただく中で感じた課題というのもありました.今年からAI事業本部だけではなくメディア事業部の人も交え,より全社研修化を志向したのですが,上で話していたような講義やディスカッションがAI事業本部の中でのものを横展開すると今いちうまくいっていないなという場面がところどころでありました.これはAI事業本部がほぼtoB事業のプロダクトばかりである一方でメディア事業部はtoC事業のプロダクトが多いということや,事業や組織規模の違いなどもあったと思います.来年以降,このDSOps研修の内容がよりgeneralな形によりブラッシュアップされていくことを期待します.また,この研修の内容をblogで公開することで,いろいろな議論がなされることも楽しみにしています.
5. さいごに
DSOps研修は,「データサイエンティストがビジネス価値を出すためには?」ということを主題にカルチャーやマインド,技術を身につけるための研修でした.しかし,データサイエンティストがこのような技術やカルチャーを備えたことで本当に売上などのビジネスKPIに貢献できているのでしょうか? 再度Twitteからの引用となりますが,以下のようなpostがありました.
「データ分析の価値は優れた統計学や機械学習を駆使したかどうかではなくビジネスに貢献したかどうかである」という言説を見かけて、ではその提唱者がデータ分析部門の責任者として活躍していた企業の決算や株価がその間どう推移したかを見に行ったら「……」となって帰ってきた
— TJO (@TJO_datasci) December 18, 2021
これ真面目に言いたいんだけど「ビジネスに貢献することこそが〇〇の価値である」と力説する場合は、売上高・利益・株価などなどによる裏付けが問われるということを肝に銘じるべきだと思う
— TJO (@TJO_datasci) December 18, 2021
このような研修を行ったこと,あるいは,データサイエンティストがDSOps研修で身につけるようなマインドや技術があることでビジネスKPIにインパクトが与えられたかということに関しては実際には自分たちでも検証しきれていません.当然このような貢献を定量化する義務があることは分かってはいて,事業部におけるA/Bテストの回数は確かに増えていることなどは分かっているのですが,純粋に研修の効果などを計測するのはなかなかに困難です.反実仮想的に,研修を受けなかった場合のデータサイエンティストがどのような仕事をするかを想定すればようのでしょうか? また,A/Bテストを行って研修を受ける人とそうでない人をランダムアサインすべきでしょうか?
データサイエンティストがビジネスKPIに貢献しているべきという理念を掲げることはおそらく正しいと思いますが,実際の検証までやりきれないと空疎な理念を掲げるだけのポジショントークとして終わってしまいますし,データサイエンティスト職に未来はないでしょう.私達はこの検証までやりきることを目的としていきたいと思っています.
備考: 他の研修について
ここまで読まれた方の中には「DSOps研修しかしてないのでは?」と思われる方もいるかと思うので,最後に他の研修についても簡単に触れようと思います.
DSOps研修の立ち位置
AI事業本部配属の新卒DSが事業部配属後に受ける研修は2つあり,
- 事業部配属直後の事業部内ML全体研修
- プロダクト配属後のDSOps研修
があります.
これらの内容は毎年変更されますが,2021年では以下のような内容となっています。
- ①:事業部配属直後の事業部内ML全体研修
- 期間 : 約1~2週間,8時間 * 週5回
- データ処理やMLシステムなどに関する基礎的な講義
- 実際にDS&SEでMLやA/Bテストの機構を備えた広告配信システムを2~3人のメンバで開発(https://developers.cyberagent.co.jp/blog/archives/29957/)
- ②:プロダクト配属後のDSOps研修
- 約3ヶ月,2時間 * 週1回
- データサイエンティストの実務における実タスクに関するタスクに関する講義や,応用的なデータサイエンス的なトピックに関する講義(前半1時間)
- 新卒DSが自分の配属後のタスクやプロダクトの収益モデルについて説明し,それらの認識や改善案について講義を担当する先輩社員と行うディスカッション(後半1時間)
①のML全体研修では手を動かす実践的な内容がメインなのに対して,②のDSOps研修は講義やディスカッションがメインとなります.