🤝

【電車で行ける】KubeCon + CloudNativeCon Japan 2025 に参加してきた

に公開

primeNumber という会社で SRE をやっている中村です。
KubeCon + CloudNativeCon Japan 2025 に参加してきました。KubeCon は NA 2024 に続き2度目の参加でした。個人的に興味があったセッションなどの感想を書いていきます。

セッション

New Cache Hierarchy for Container Images and OCI Artifact in Kubernetes Clusters Using Containerd - Toru Komatsu & Hidehito Yabuuchi, Preferred Networks, Inc.

Preferred Networks の K8s Cluster で Container Image のキャッシュを Node レベルでなく Cluster レベルで行っている話でした。
ML ワークロードを提供するオンプレ K8s の運用の中で Image Pull に時間がかかることによる Container の起動時間の問題などを CIRC というキャッシュシステムを開発して Cluster 上に置くことで解決していました。
CIRC を運用する中で遭遇した問題の1つに CIRC 起動時に起こる問題が挙げられていました。CIRC がまだ起動していないときに Pull が走るとタイムアウトが発生して元の Registry へフォールバックを行います。このフォールバックが20分以上かかることがある問題があったようです。これは containerd で Image の blob ごとのタイムアウトが30sに設定されていた(ハードコーディング)からのようです。Image は1つ以上の blob で構成されているため、フォールバックが長時間かかっていたようです。これは Issue を起票してタイムアウトの設定を変更可能にして解決していました。
うたもく(Toru Komatsu)さんにお聞きしたところ、CIRC は現時点で OSS として公開する予定はないとのことです。
以下は Spegel に関する記事ですが、うたもくさんが以前こちらの記事に触れられていたので、こういう系の話に興味がある方は後から公開されるアーカイブと合わせて見ると面白そうです。
https://blog.cybozu.io/entry/2023/09/21/161930

No More Disruption: PlayStation Network’s Approaches To Avoid Outages on Kubernetes Platform - Tomoyuki Ehira & Shuhei Nagata, Sony Interactive Entertainment

グローバルで大規模なプラットフォーム運用の話でしたが、"普通のことを普通にやる" が大切だということをお話しされていたセッションでした。
タイムゾーンを跨いだグローバルなチーム同士の連携の話があり、ドキュメンテーションの重要性などに触れられていました。primeNumber ではグローバル化というところが少しづつ進んでいますが、日頃からのドキュメント整備など普通のことを大切にしていこうと思わされるセッションでした。
また、1日目のセッションだったのですが立ち見大量発生で大人気だったので2日目もアンコールでお話しされていたようです。

Breaking Limits: Highly-Isolated and Low-Overhead Wasm Container - Soichiro Ueda, Kyoto University & Ai Nozaki, The University of Tokyo

Wasm 実行に特化した unikernel である Mewz の話です。
Linux(OS)と Wasm runtime のレイヤーを1つにすることでオーバーヘッドの削減などが可能になります。
個人的に興味があるのが K8s で Mewz を動かす話です。こちらは runwasi を利用することで実現しています。K8s で利用するには containerd の shim が必要になりますが containerd-shim-mewz を2023年から開発されていたそうです。(これの時には動いてますね)登壇後にお話を伺ったのですが、containerd-shim-mewz はネットワーク関連の機能などが十分ではないそうです。今後開発に力をいれて、OSS 化する予定もありそうとのことだったのでとても楽しみです。
K8s を利用した IoT & Edge での活用についても触れられていました。K8s × Edge は結構聞く(今回の TOYOTO のブースでもそんな話を聞きました)ので K8s × Edge × Wasm の領域がもっと盛り上がれば面白そうだと思いました。

Maintainer Meetup

CNCF Projects にコントリビューションしていたら入れるとのことだったのでお邪魔しました。メンテナー・コントリビューターが様々なテーマについて議論しあう場でした。テーマはやはり AI に関することが多めでした。AI に関するテーマは以下のようなものがありました。

  • AI を活用してできること、するべきこと
  • AI が作った PR への対応
  • AI の導入に伴い Kubernetes で再考するべきこと
  • AI がメンテナー・コントリビューターに与える影響

AI によって楽になることがある反面、OSS では AI に作らせた粗悪な PR なども出てきており苦労している面もあると聞きます。
いちコントリビューターとしては AI によって OSS コントリビューションのハードルは下がってきたように思うので上手く活用していきたいです。

ブース

PagerDuty

AI を活用したインシデント対応の自動化についてのお話しを聞きました。
コミュニケーション周りでは、インシデントに関するやりとりを AI がサマライズしてくれる機能があるそうです。Slack などのサマライズは元々できたそうですが Google Meet などにも対応したそうです。こういった機能があると、障害原因の特定はもちろん、障害時に後から来た人に状況を説明する手間が省けて良いですね。ポストモーテムの記載も楽になりそうです。
また、障害を検知した際にスクリプトを実行してセルフヒーリングを行う機能があるようです。これは Rundeck を利用しているそうです。AI が勝手に危険なスクリプトを実行しては困るので、スクリプトは事前に作成したものを利用する必要があり、スクリプトの作り込みが必要になりそうでした。
この辺りの領域はどんどん発展して NoOps が進むと嬉しいです。

感想

前回行った NA と比較して規模はかなり控えめでしたが、海外に行かなくても KubeCon に参加できるようになったのは嬉しいです。来年も Japan が開催されるそうなので参加しようかな。

株式会社primeNumber

Discussion