はじめに

技術本部 サービスリライアビリティグループ(SRG)の小林です。

#SRG(Service Reliability Group)は、主に弊社メディアサービスのインフラ周りを横断的にサポートしており、既存サービスの改善や新規立ち上げ、OSS貢献などを行っているグループです。

SRG Studyとは

今回SRGのデータベースワーキンググループの活動の一環として、社内に向けてMongoDB の勉強会を実施しました。

この勉強会は、100を超えるサービスのインフラ領域をサポートし、得てきた知見を共有するための場として、SRG Studyと称し新たに初めた取り組みになります。

SRG Studyのロゴ

今後も、Datastore(MySQL、MongoDB…)、Observability、Cloud Design Pattern(AWS、GCP)、SREなどのキーワードを元に開催する予定です。

発表概要

弊社においては昔から様々なサービスで使われているMongoDBですが、その運用においてトラブル、さらには障害になってしまったようなポイントをまとめて、それに対しての対応と対策について今回は発表しました。

アジェンダとしては、以下のような内容です。

  • はじめに

  • MongoDBの障害事例と対応、対策

    • VM/ディスク障害・予定されたメンテナンス等

    • メモリ不足による影響

    • シャードクラスターとバランサー

    • インデックスまわり

    • レプリカセットの切り離し失敗

    • mongosまわり

  • MongoDB4.4の機能強化

以下はスライドの1ページです。メモリ不足に関連する部分の導入になります。

このように、分類とその頻度、機能の概要と発生する影響の内容、対応と対策をざっくりと説明しています。

スライドの一例

この記事では、その時の発表資料を公開します。

MongoDBを運用する多くの人にとって、知見になればいいなと思っております。

発表資料

発表資料のサムネ

SRG_Study#1_MongoDBについて

さいごに

発表後、ありがたいことに以下のような感想を頂きました。喜んでもらえると、継続してアウトプットするモチベーションになりますね!

  • 障害時の対策や設定の勘所について実際の経験をもとに説明されていてとてもためになりました

  • MongoDBに関する知識を整理することができました

  • サービスでMongoDBを使っているのでためになる内容でした

  • MongoDBで何かあった時にSRGに相談してみようと思った

  • 外のDBを触ってみて改めてゆるふわ運用できるMongoDBは良かったななんて思います

次回のSRG-Studyは、MySQLについての内容で実施を予定しています。

開催後はまた、同じようにこちらのDevelopers Blogでも紹介させて頂ければな、と思っております。

2012年中途入社。技術本部サービスリライアビリティグループで様々なサービスをサポートしています。 最近楽しみにしている事は、映画:フィッシュマンズです。 あのとき止まってしまった時間がまた動き出すといいな、、と思っていたり。