こんにちは!マッチングエージェントでSREのリーダーをしている袴田です。

2019年2月に社内の技術カンファレンスCA BASE CAMPにて登壇したため、その内容を紹介させてもらいます。

当日の発表では、タップルSREの活動内容と、今後タップルの成長をSREとしてどのように支えてくかについて話しました。本記事では、当日の発表スライドを元に内容をかいつまんで紹介していきます。

サービス紹介

タップルは、若い男女が趣味で繋がる恋活サービスというコンセプトでアプリを運営しています。

CA BASE CAMP tapple-sre img1

2019年の時点では、マッチングアプリを20代から30代の若者の5人に1人が使う時代になりました。マッチングアプリに対する世間のイメージもクリーンに変わりつつあります。

タップルSREの設立背景

マッチングアプリの普及拡大に伴いマッチング市場も激化しています。新たな顧客価値を他社よりも早く市場に投入するため、現在タップルでは組織規模を拡大しています。ただ、闇雲に人を増やせばよいのではなく、アプリケーションの品質や生産性を担保しつつ、組織を拡大させる必要があります。

CA BASE CAMP tapple-sre img3

生産性や品質の担保でロールモデルとなるチームを探したところ、Google SREを見つけました。Google SREは生産性や品質を担保する独自のプラクティスを持っており書籍で体系的に習得可能です。

2018年4月よりGoogle SREに習う形でタップルのSREを設立しました。

CA BASE CAMP tapple-sre img3

 

活動内容

タップルSREの活動内容を決めるため、Google SREの書籍に加えて、他社のSREの活動事例を調査しました。結果、各SREは置かれた環境に応じて活動内容が多少異なることがわかりました。

CA BASE CAMP tapple-sre img4

グローバル企業であるGoogle SREのプラクティスを、我々のようなスタートアップ企業にそのまま適用するのではなく、各社なりの工夫を加えてSREとして活動している印象を受けました。

そこで我々もGoogle SREに学びつつも、タップルSREとしてタップルの成長に貢献できるミッションがあれば、柔軟に対応していくスタンスを持ち、「安全と最適」の活動軸と共に当面の活動内容を定義しました。

CA BASE CAMP tapple-sre img5

課題解決の方針

安全と最適を活動軸に課題解決をすることに決めたのですが、タップルは2013年にサービス開始して数年経過した2019年現在では、様々な足元課題が溜まっている状態でした。

CA BASE CAMP tapple-sre img6

では、足元課題に優先度をつけて全て解決していかなければならないかというと、そうでもないと思います。

足元課題ばかり解決していては、SREが技術負債の返却チームのような見え方になり、いつか足元課題が減ってきた時に事業インパクトのある課題解決ができなくなり、結果としてSREとしての事業貢献度が下がってしまいます。また、アーキテクチャを事業ニーズに応じて適切に更新していかなければ、将来大きな問題を抱えかねません。

そこで、短期視点での課題解決に加え中長期戦略を安全と最適の観点で策定することで、短期と中長期のバランスを保ちつつ、タップルの成長を支えることにしました。

CA BASE CAMP tapple-sre img7

短期課題

短期的な課題解決方法について説明します。先程説明した通り、現在タップルでは足元課題が多い状態です。さらに、タップルSREはインフラの構築、保守運用等の業務も担っているため、短期課題に対して避ける労力が限られてきます。そこで、タップルの安全と最適をどこまで突き詰めるかの基準を適切に定める必要があります。

CA BASE CAMP tapple-sre img8

そこで、タップルが守るべき安全と最適の基準をGoogle SREが推奨しているSLOにより定義することにしました。

CA BASE CAMP tapple-sre img9

SLOを満たしているうちは、タップルSREが担保すべき安全と最適の基準をクリアしていると言えるため、中長期戦略を推進することができます。

CA BASE CAMP tapple-sre img10

現在タップルではAPI成功率、稼働率、APIレスポンスタイムをSLOとして掲げており、組織全体の目標として活用できるように試験運用をしている最中です。

また、タップルには「リスクスコア」という独自のSLO活用方法があります。

CA BASE CAMP tapple-sre img11

これは未解決のポストモーテムの再発防止策をSLOで管理するものです。タップルではチーム制の開発を行なっており、チーム毎に設定されたKPIを常に追っているため、自然と組織横断の課題に対する優先順位が低くなり、解決されにくい傾向にありました。そこで、このリスクスコアを一定点数以下に保つことを組織共通の目標とすることで、一定水準の安全を担保することにしています。

今後はリスクスコアのバリエーションを増やして行く予定で、障害再発リスクのみならず、セキュリティー脆弱性や組織の障害対応力においてもリスクスコア化する予定です。

CA BASE CAMP tapple-sre img13

このように、タップルではアプリケーションレベルで担保すべき水準をSLOで示すと同時に、エンジニア組織として担保すべき水準もSLOを利用して担保しています。

中長期戦略

タップルSREの中長期戦略についても、安全と最適の活動軸で取り組んでいます。

安全観点では事業計画を阻害するリスクを事前にチェックし、計画的に事業リスクを取り除いて行きます。

CA BASE CAMP tapple-sre img14

また、最適観点では開発エンジニアや技術ボードや経営ボードとの議論を通じて事業の理想状態を定義して、実現していきます。

現在タップルSREは理想状態の実現として、マイクロサービス化を推進しています。マイクロサービス化により、開発エンジニアが小規模な単位での開発を高速に行える環境を提供すると同時に、不具合発生リスクを極小化するための環境も整えて行きます。

CA BASE CAMP tapple-sre img15

まとめ

タップルSREは安全と最適という活動軸を定めており、短期視点ではSLOを満たす一定水準の安全と最適を担保し、中長期戦略では事業計画を阻害するリスクを排除しつつ、事業の理想状態を実現しています。

CA BASE CAMP tapple-sre img16

最後になりましたが、発表タイトルである『タップルSREはタップルの成長をどこまで支えられるか』という問いに対しては、今まで紹介してきた内容を継続的に実現できていれば、タップルの成長を支えるのではなく、むしろ成長を促進させることが出来ると思っています。守りのイメージが強いSREですが、タップルのSREは事業成長に欠かせない攻めの姿勢を持ったチームにして行きたいと思っています。

弊社マッチングエージェントのように、数十人規模のサービスでSREを抱えるチームは珍しいとおもいます。今後弊社のような立場で設立されたSREの良いロールモデルとなれるように頑張っていきますので、ご声援よろしくお願いします。

サーバサイドエンジニアです。何事も卒なくこなせるエンジニアになるために日々精進しています。