Closed7

Datadog Live Tokyo 2024 scraps

M.K Tech k.masachikaM.K Tech k.masachika

ミスミのグローバル事業を加速させる基幹システム刷新とオブザーバビリティの構築

株式会社ミスミ
NEWTON推進本部
力田 章 様

状況

  • 八千垓の製品を管理 システム泣かせ
  • 14カ国ECを展開
  • 基幹システムの刷新 プロジェクト名 NEWTON

NEWTON

30年利用していた機関システムの刷新
ECの拡大に耐えられないのでマイクロサービス化が狙い

  • 2016 従来の期間システム ベンダーロックイン
  • 2017~2019 クラウド移植
  • 2020マイクロサービス

利点

  • API連携で依存性が低下
  • アジリティアップ
  • 生涯耐久性

問題

  • 管理が複雑
  • 27サービス、1000API

datadogの課題

  • ログ保管コスト増加
  • 過敏な通知
    TAMと最適化に向けて対応中

活用事例

  • ダッシュボードで会話
  • 事業コアメンバーと開発メンバーが監視
  • プライベートロケーションでの死活監視
M.K Tech k.masachikaM.K Tech k.masachika

SDV 実現に向けた Honda のコネクテッド領域における挑戦と取り組み

野川 忠文 様
本田技研工業株式会社
電動事業開発本部 BEV開発センター ソフトウェアデファインドモビリティ開発統括部 コネクテッドソリューション開発部長

世界一のパワーユニットメーカー

  • 世界で初めてカーナビ開発
  • 2013年AWS導入
  • 2020年Datadog導入

導入課題

  • アプリ側のエラー検知
  • 監視が複雑
  • 初動対応の遅れ
M.K Tech k.masachikaM.K Tech k.masachika

Dash情報

  • LLMオブザーバビリティ
  • ログワークスペース
  • agentless scannong
  • live debugger
  • incident response
  • datadog on call
    obseve secure act
M.K Tech k.masachikaM.K Tech k.masachika

オブザーバビリティを DIY する : Datadog を活用したカインズの挑戦

岩間 俊樹 様
情報システム事業部 ソリューションアーキテクチャ部 システム運用G

オブザーバービリティへの取り組み

  • ボトムアップ

ハードル

  • 開発者へのメトリクス、ログ、APMの実装の許可

解決策

  • デモもしながら導入
  • 5システム、10チーム
  • ステージングのみ
M.K Tech k.masachikaM.K Tech k.masachika

パネルセッション

モデレーター
萩野 たいじさん
Datadog Japan合同会社
シニア デベロッパー アドボケイト

パネリスト
鹿野 市郎 様
東芝デジタルソリューションズ株式会社
デジタルエンジニアリングセンター マネージドサービス推進部 フェロー

大木 竜勝 様
freee株式会社
エンジニアリング基盤本部SRE部・マネージャー

菅野 滉介 様
合同会社DMM.com
デジタルコンテンツ開発本部 動画配信開発部 動画SREチーム チームリーダー

近藤 健司 様
株式会社リクルート
プロダクト統括本部 プロダクト開発統括室 プロダクトディベロップメント室 販促領域プロダクトディベロップメント5ユニット(まなび) 教育支援小中高プロダクト開発部 部長

トピック

パフォーマンスとユーザーエクスペリエンス

M.K Tech k.masachikaM.K Tech k.masachika

メトリクスを活用したリソースやあインフラコストの最適化

  • 継続的な監視による特定時間のスパイクを監視。
  • リソースをうまく活用できるようにインフラを整備している。
  • ダッシュボードはデイリー用とそうでないものを分けている。
  • デイリー用は必ず見る。
  • コストはチームで監視できるようにしSREに聞かなくても判断できるようにしている
  • 大きな組織ではサイトがおおい。標準化が必要にある。

Notebookの活用による効果

  • 動画配信によってスパイクの仕方が違う
  • メトリクスを振り返るときにnoteookを活用
  • テンプレートが使えるのでイベント規模、コメントなどを記録
  • 誰でも共通のナレッジを作り、毎度ブラッシュアップしている
  • データをロストしてもNoteBookにはスナップショットの機能があり画像を記録できる
  • 時系列を変えた表示やメッセージの共有などはNoteBookの方が優れている
  • インシデントレスポンス、ケースマネージメントのNoteBook
  • 多数のプロダクトのアラートを貼り付けて週に共有したりしている
  • Jsonでエクスポートして、マージしたりできる
  • アラートを見ることも重要だが減らすことは重要

SLOの導入・活用はどこまでできてる

  • 各マイクロサービスごとにSLOを設定
  • サービス立ち上げ時にデザインしてしまうTraformを活用
  • 主要サービスに入れているがアクションに繋がらない
  • エンジニアだけで進めていてもアクションに繋がらない。機能開発が優先されるから
  • アラートがなっても優先度が上がらないので閾値を下げてしまう
  • 信頼性が差あっているからアクションするに変えていきたい
  • 新規サービスではエンドユーザーへの機能追加が優先られる
  • apiがエラーでもhttpレスポンスが200を返すことがある
  • メトリクスベースで評価する機能が実装された
  • インフラチームのSLOはサーバーの死活のみ。求められるSLOは100%が求められる
  • SLOを99.9で設定しても、求められていることは100に変わりはない
  • SLO、SLIがある。何の指標で数値を決めるか
  • 決めた指標は更新していくことが重要
  • SLOは開発者だけがみていて仕方がない
  • 払い出したユーザーの活用を可視化したい

SRE、インフラ周りと開発メンバーとの役割の責任分解点

  • アプリチームが多い。インフラの方が少ない
  • インフラチームはアプリレイヤーに入らなければいけない
  • 運用よりのおブザーばビリティは開発がはのフェーズになっている
  • アプリもメトリクスを見る
  • フロントが見ないケースもある。どちらかというとインフラのフェーズ
  • 完全にインフラをフロントを設計しているわけではない
  • インフラチームがうまく抽象化したレイヤーをアプリチームが使うことはある
このスクラップは2ヶ月前にクローズされました