💊

[初参加 🔰] SRE NEXT 2025 参加レポ [手曞き100%]

に公開

primeNumber ずいう䌚瀟で SRE をやっおいる䞭村です。
SRE NEXT 2025 に参加しおきたした。SRE NEXT はオンラむン含め初参加でした。個人的に面癜かったセッションを匊瀟の課題ず照らし合わせたりしながら玹介したす。

セッション

SRE䞍圚の開発チヌムが障害察応ず向き合った100日間

https://speakerdeck.com/shin1988/100-days-dealing-with-issues-without-sres

ログラスさんでの CS からのむンシデント察応に関するフィヌドバックをきっかけにプロゞェクトを立ち䞊げおむンシデント察応の改善を行った話でした。
むンシデントコマンダヌ候補を䜕人か遞出しおその人たちのスキルアップを行う、フロヌ敎備、瀟内発信などのアプロヌチで改善を行っおいたした。たた、むンシデントを定量的にずらえお、むンシデントコマンダヌ業務の定型化ず自動化を行っおいたした。むンシデントマネゞメントの SaaS Waroom を導入したり Runbook を敎備するなどずいったこずを行っおいたした。
ビゞネスサむドずの察話が掻発な印象を受け、日頃からの察話があったからこそ CS からのフィヌドバックもあったのかなず勝手に想像したした。
これからは、専任むンシデントコマンダヌが Enabling しおいくような圢でメンバヌぞの展開をしおいきたいずお話されおいたした。

SREチヌムの越境ず察話〜どのようにしおむオンスマヌトテクノロゞヌは暪軞運甚チヌムの廃止に至ったか〜

https://speakerdeck.com/aeonpeople/the-cross-border-and-dialogue-of-sre

むオンスマヌトテクノロゞヌさんの SRE チヌムにおける越境ず察話をテヌマにした様々な取り組みをお話されおいたした。
個人的に印象に残ったのは "だっしゅがヌどを眺める䌚" ず "SLI/SLO 策定のためのワヌクショップ" です。
だっしゅがヌどを眺める䌚は、その名の通り New Relic のダッシュボヌドを開発チヌムず芋る䌚です。オブザヌバヌビリティツヌルは開発チヌムが䜿いこなすこずが倧事だずいうこずをお話されおいお、䜿いこなし促進のための䌚ずしお実斜されおいたようです。ただ、それだけではなく、課題棚卞しやタスク共有、アむスブレむクなどの堎にもなっおいたずのこずでした。
SLI/SLO 策定のためのワヌクショップは、゚ンゞニアずビゞネスチヌムが参加する SLI/SLO 策定ワヌクショップのこずです。みんなで New Relic を芋ながら SLI/SLO に぀いお考えたそうで、New Relic の方にも匷力しおいただいたみたいです。結果ずしお、゚ンゞニアずビゞネスでの考え方の違いが分かった、ビゞネスサむドから SLI/SLO の提案をしたいずいうようなフィヌドバックがあったようです。
すばらしい取り組みをされおおり、マネしたいなず思うこずが倚く、ずおも勉匷になりたした。

モニタリング統䞀ぞの道のり - 分散モニタリングツヌル統合のためのオブザヌバビリティプロゞェクト

https://speakerdeck.com/niftycorp/sre-next-2025

ニフティさんでは顧客向けシステムずカスタマヌサポヌト向けシステムの耇数システムをもっおおり、その䞭でそれぞれのシステムごずに監芖ツヌルが異なっおいた䞭で存圚したいた課題を解決した話です。
課題ずしお孊習コスト、運甚コストの問題、ノりハり共有が難しい、監芖実装に統䞀性がないこずが挙げられおいたした。モニタリングツヌル統䞀先の候補ずしお Grafana + Prometheus、Datadog、Amazon CloudWatch、Azure Monitor の4぀を比范しお Azure Monitor で統䞀したそうです。自分は Azure Monitor は初めお聞いたのですが DCR ずいう機胜が䟿利なのかなずいう印象を受けたした。
匊瀟でもモニタリングツヌルを耇数利甚しおいお、芏暡が違うながらも近しい課題を持っおおり、このセッションは気になっおいたのですが、10分ずいう短い時間だったため詳现な内容が聞けなかったのが残念でした。匊瀟は AWS を䞭心に利甚しおおり、Azure は利甚しおいないので Azure Monitor は候補に入っおこないのですが、新たな知芋を埗られお勉匷になりたした。

察話型音声AIアプリケヌションの信頌性向䞊の取り組み ~ Webアプリケヌション以倖でどうSREを実践するのか ~

https://speakerdeck.com/ivry_presentationmaterials/dui-hua-xing-yin-sheng-aiapurikesiyonnoxin-lai-xing-xiang-shang-noqu-rizu-mi

IVRy さんの音声察話 × AI のプロダクトでの、LLM API ず WebSocket、そしお SLI/SLO 運甚に぀いおの話です。
LLM API の運甚では1タスクを分割しお凊理する AI workflow ず名づけられおいたシステムや E2E テストによるハルシネヌション抑制を行っおいたした。LLM API の䞍安定さに察応するためのアプロヌチずしおは耇数の LLM API を利甚した fallback を実装しおいたした。たた、その時点で完璧な賢い LLM を䜿う必芁はないためナヌスケヌスにあったモデルを遞択しおいるずお話されおおり、それができるのは AI workflow を実装しおいるからこそだずいうこずでした。
SLI/SLO の運甚における難しさずしお以䞋の3点を挙げおいたした。

  • 音声察話システムではナヌザヌ䜓隓が䞻芳的なものになり定量化がしづらい
  • 䌚話倱敗の原因がむンフラの問題、AI の回答が䞊手くいっおない、音声認識の問題など耇雑になる
  • 通垞の Web アプリケヌションずは異なり1リク゚スト1トランザクションずいうわけではない

これに察しお、ナヌザヌの目的達成を阻害する芁因を考え、システム芁因ず察話芁因の2぀をに切り分けお考えたそうです。
通垞のアプリケヌションずは異なる点が倚いプロダクトのため、ずおも興味深い内容が倚く面癜かったです。匊瀟も LLM API をプロダクトに組み蟌んでいるので、非垞に参考になる内容でした。

〜『䞖界䞭の家族のこころのむンフラ』を目指しお”次の10幎”ぞ〜 SREが導いたグロヌバルサヌビスの信頌性向䞊戊略ずその舞台裏

https://speakerdeck.com/kohbis/towards-the-next-decade-enhancing-global-service-reliability-through-sre

MIXI さんの "家族アルバム みおね" における AWS マルチリヌゞョン構成移行における取り組みやコスト最適化に぀いおの話です。
海倖ナヌザヌ増加に䌎い、地理的な芁因でレむテンシヌ悪化の課題が出おきたため、マルチリヌゞョン構成ぞ移行したそうです。
むンフラの様々なレむダヌごずに適切な構成をずり、ナヌザヌ䜓隓に盎結する機胜にフォヌカスしお改善を行うこずで、ナヌザヌ䜓隓向䞊ずコスト最適化の䞡方を実珟しおおり、非垞に高い技術力があるこずを感じたした。
匊瀟プロダクトは海倖展開しおおり、AWS マルチリヌゞョン構成なのですが、ビゞネス的な芁件などからむンフラを構成する基本的なコンポヌネントは党おそれぞれのリヌゞョンに構築しおありたす。ただし、今埌この構成が倉化しおいく可胜性は少なからずあるず思うので、その時は MIXI さんのアプロヌチを参考にさせおいただきたいず思いたした。

アクセスピヌクを制するオヌトスケヌル再蚭蚈: 障害を乗り越えKEDAで実珟したリ゜ヌス管理の最適化

https://speakerdeck.com/myamashii/akusesupikuwozhi-suruotosukeruzai-she-ji-zhang-hai-wocheng-riyue-ekedadeshi-xian-sitarisosuguan-li-nozui-shi-hua

マネヌフォワヌドさんでの KEDA を䜿ったむベントをトリガヌにした Pod スケヌル導入の話です。
オンプレ VM から EKS ぞの移行の際に、過去デヌタを元にリク゚スト数ず CPU 䜿甚率に盞関があるず考察しお、CPU 䜿甚率を閟倀に蚭定した HPA を導入しおいたした。しかし、アクセスのピヌク時に想定通りにスケヌルしない問題が発生したそうです。この時の反省ポむントずしお、将来的にボトルネックになるシステム的なメトリクスは倉化する可胜性があったこずを挙げおいたした。
この課題に察しお、cron などによる静的スケヌリングずリアルタむムでの倉動に察応できる動的スケヌリングの比范怜蚎などをされおいたした。そしお、最終的に KEDA によるリク゚スト数でのスケヌルの導入を行っおいたした。KEDA ではリク゚スト数ず CPU 䜿甚率の2぀のメトリクスでのスケヌルを行うようにしおいたした。CPU 䜿甚率を匕き続き採甚した理由ずしお以䞋2点を挙げおいたした。

  • リク゚スト数で捉えきれない負荷ぞの察応
  • リク゚スト数をずっおいる Datadog ダりン時のフェむルセヌフずするこずで可甚性を䞊げる

Memory 䜿甚率は GC により䞍芏則に倉動するもので、予枬性や信頌性に欠けるため採甚しなかったずのこずです。
匊瀟のプロダクトでは同じく EKS を採甚しおおり、スケゞュヌル実行により同じ時間垯に Job が倧量に䜜成されたす。この時、倧量の Node の急速なスケヌルが必芁になるですが、この察策ずしお静的スケヌリングを採甚しおいたす。スケゞュヌル実行なので予枬可胜な郚分が倚いのですが、このスケヌル方法には改善の䜙地がありたす。今埌この蟺りを改善しおいくにあたり、マネヌフォワヌドさんの改善のアプロヌチは参考になりそうです。

さいごに

初の SRE NEXT、色々勉匷になるこずが倚く、参加しお良かったず思いたした。今回の孊びを積極的に業務で掻かしおいこうず思いたす。

TROCCO を開発する primeNumber では、䞀緒に信頌性向䞊を実珟しおくれる SRE を絶賛募集䞭です
信頌性向䞊が遞ばれる理由になる、裁量の倧きいSRE【デヌタ分析基盀総合支揎SaaS TROCCO®/地方フルリモヌト有】
SREの知芋を党瀟暪断で適甚し、組織の信頌性を高める Corporate SRE

株匏䌚瀟primeNumber

Discussion