<h2 id="%E3%81%93%E3%82%8C%E3%81%AF%E3%81%AA%E3%81%AB">
<a class="header-anchor-link" href="#%E3%81%93%E3%82%8C%E3%81%AF%E3%81%AA%E3%81%AB" aria-hidden="true"></a> これはなに</h2>
<p>これは、<a href="https://k8sjp.connpass.com/event/282273/" target="_blank" rel="nofollow noopener noreferrer">Kubernetes MeetUp Tokyo #58 - KubeCon EU 2023 Recap</a>向けの発表資料として作成した記事です。<br>
AppleのエンジニアであるIllya Chekrygin(<a href="https://github.com/ichekrygin" target="_blank" rel="nofollow noopener noreferrer">Github</a>)さんによる、「Distributing and Decentralizing Pod Disruption Budget (PDB)」の発表内容を紹介します。</p>
<ul>
<li><a href="https://sched.co/1HyVE" target="_blank" rel="nofollow noopener noreferrer">Sched</a></li>
<li><a href="https://static.sched.com/hosted_files/kccnceu2023/08/Final%20-%20KubeCon%20%2B%20CloudNativeCon%20EU23%20Optional%20PPT.pdf" target="_blank" rel="nofollow noopener noreferrer">発表スライド</a></li>
<li><a href="https://youtu.be/2IPf_AyKSsU" target="_blank" rel="nofollow noopener noreferrer">YouTubeアーカイブ</a></li>
</ul>
<h2 id="%E3%82%A4%E3%83%B3%E3%83%88%E3%83%AD%E3%83%80%E3%82%AF%E3%82%B7%E3%83%A7%E3%83%B3">
<a class="header-anchor-link" href="#%E3%82%A4%E3%83%B3%E3%83%88%E3%83%AD%E3%83%80%E3%82%AF%E3%82%B7%E3%83%A7%E3%83%B3" aria-hidden="true"></a> イントロダクション</h2>
<p><img src="https://res.cloudinary.com/zenn/image/fetch/s--4AhWcDen--/c_limit%2Cf_auto%2Cfl_progressive%2Cq_auto%2Cw_1200/https://storage.googleapis.com/zenn-user-upload/deployed-images/0dc02f73f5bd266eac9e6112.png%3Fsha%3D3ebaa8545dcda71bde968d7e21adfd7416c9f09f" alt="セッションタイトル" loading="lazy" class="md-img"></p>
<h3 id="%E7%99%BA%E8%A1%A8%E3%81%AE%E8%A6%81%E7%82%B9%E3%81%BE%E3%81%A8%E3%82%81">
<a class="header-anchor-link" href="#%E7%99%BA%E8%A1%A8%E3%81%AE%E8%A6%81%E7%82%B9%E3%81%BE%E3%81%A8%E3%82%81" aria-hidden="true"></a> 発表の要点まとめ</h3>
<ul>
<li>Kubernetes標準のPod Disruption Budget(PDB)ではカバーできないユースケースがあって困っていた
<ul>
<li>CassandraクラスターをKubernetes上にデプロイして、PDBで保護したいケース</li>
<li>1つのPodに対して複数のPDBを適用することができない</li>
</ul>
</li>
<li>Distributed PDBというカスタムリソース&amp;コントローラーを開発して解決した</li>
<li>クラスターを跨いでPDBを効かせるということも可能でアツい</li>
</ul>
<h3 id="%E3%81%93%E3%81%AE%E3%82%BB%E3%83%83%E3%82%B7%E3%83%A7%E3%83%B3%E3%82%92%E8%81%B4%E3%81%84%E3%81%9F%E5%80%8B%E4%BA%BA%E7%9A%84%E3%81%AA%E3%83%A2%E3%83%81%E3%83%99%E3%83%BC%E3%82%B7%E3%83%A7%E3%83%B3">
<a class="header-anchor-link" href="#%E3%81%93%E3%81%AE%E3%82%BB%E3%83%83%E3%82%B7%E3%83%A7%E3%83%B3%E3%82%92%E8%81%B4%E3%81%84%E3%81%9F%E5%80%8B%E4%BA%BA%E7%9A%84%E3%81%AA%E3%83%A2%E3%83%81%E3%83%99%E3%83%BC%E3%82%B7%E3%83%A7%E3%83%B3" aria-hidden="true"></a> このセッションを聴いた個人的なモチベーション</h3>
<ul>
<li>普段マルチクラスタなKubernetes環境を運用しており、クラスタを跨いでいい感じにリソースを制御するという技術が気になった（将来役に立つかも）</li>
</ul>
<aside class="msg message"><span class="msg-symbol">!</span><div class="msg-content">
<p>（宣伝）<br>
以下の記事で、弊チームとZ Labで開発、運用しているマルチクラスタなプラットフォームをご紹介しています 🙇</p>
<ul>
<li><a href="https://techblog.yahoo.co.jp/entry/2023052230423347/" target="_blank" rel="nofollow noopener noreferrer">ヤフーにおけるKubernetesを活用したPlatform Engineeringの取り組み</a></li>
</ul>
</div></aside>
<h2 id="%E3%82%BB%E3%83%83%E3%82%B7%E3%83%A7%E3%83%B3%E8%A7%A3%E8%AA%AC">
<a class="header-anchor-link" href="#%E3%82%BB%E3%83%83%E3%82%B7%E3%83%A7%E3%83%B3%E8%A7%A3%E8%AA%AC" aria-hidden="true"></a> セッション解説</h2>
<p>ここからはセッションの中身をかいつまんで紹介します。</p>
<h3 id="pod-disruption-budget(pdb)%E3%81%A3%E3%81%A6%E3%81%93%E3%82%93%E3%81%AA%E3%82%84%E3%81%A4">
<a class="header-anchor-link" href="#pod-disruption-budget(pdb)%E3%81%A3%E3%81%A6%E3%81%93%E3%82%93%E3%81%AA%E3%82%84%E3%81%A4" aria-hidden="true"></a> Pod Disruption Budget(PDB)ってこんなやつ</h3>
<h4 id="pdb%E3%81%AE%E7%B0%A1%E5%8D%98%E3%81%AA%E5%BE%A9%E7%BF%92">
<a class="header-anchor-link" href="#pdb%E3%81%AE%E7%B0%A1%E5%8D%98%E3%81%AA%E5%BE%A9%E7%BF%92" aria-hidden="true"></a> PDBの簡単な復習</h4>
<p><img src="https://res.cloudinary.com/zenn/image/fetch/s--vs8eW8S0--/c_limit%2Cf_auto%2Cfl_progressive%2Cq_auto%2Cw_1200/https://storage.googleapis.com/zenn-user-upload/deployed-images/8236fb7db97c787b19cbf811.png%3Fsha%3D0b206ffacdc0cd6a3a1282b7f996f44296d8e1b7" alt="PDB" loading="lazy" class="md-img"></p>
<ul>
<li>PDBはNamespce Scopedなリソース</li>
<li>
<code>{.spec.maxUnavailable}</code>または<code>{.spec.minAvailable}</code>フィールドで、<code>{.spec.selector}</code>で選択されたPodのうち同時にevictされてもいい数を指定する</li>
<li>
<code>{.status}</code>フィールドから、対象のPod群の現在の状況（正常なPod数、期待される正常なPod数など）が分かる</li>
</ul>
<h4 id="pdb%E3%81%AE%E3%81%84%E3%81%84%E3%81%A8%E3%81%93%E3%82%8D%E3%80%81%E3%81%84%E3%81%BE%E3%81%84%E3%81%A1%E3%81%AA%E3%81%A8%E3%81%93%E3%82%8D">
<a class="header-anchor-link" href="#pdb%E3%81%AE%E3%81%84%E3%81%84%E3%81%A8%E3%81%93%E3%82%8D%E3%80%81%E3%81%84%E3%81%BE%E3%81%84%E3%81%A1%E3%81%AA%E3%81%A8%E3%81%93%E3%82%8D" aria-hidden="true"></a> PDBのいいところ、いまいちなところ</h4>
<p><img src="https://res.cloudinary.com/zenn/image/fetch/s--BvIYOYbH--/c_limit%2Cf_auto%2Cfl_progressive%2Cq_auto%2Cw_1200/https://storage.googleapis.com/zenn-user-upload/deployed-images/ed70fc59e5ecbdef9780e40e.png%3Fsha%3Dd3133e5011955dd75e19e2416c399f69351dac00" alt="PDBのいいところ、いまいちなところ" loading="lazy" class="md-img"></p>
<ul>
<li>PDBのいいところ
<ul>
<li>シンプル</li>
</ul>
</li>
<li>PDBのいまいちなところ
<ul>
<li>Namespaceを跨いだりとかできない</li>
<li>Podの選択方法がラベルだけで、細かい指定が難しい</li>
<li>拡張性に難がある</li>
</ul>
</li>
<li>PDBの勘弁してほしいところ
<ul>
<li>1つのPodに複数のPDBをマッチさせることができない（エラーになる）</li>
<li>拡張性に難がある</li>
</ul>
</li>
</ul>
<h4 id="%E6%A8%99%E6%BA%96%E3%81%AEpdb%E3%81%A7%E3%81%AF%E3%82%AB%E3%83%90%E3%83%BC%E3%81%A7%E3%81%8D%E3%81%AA%E3%81%84%E3%83%A6%E3%83%BC%E3%82%B9%E3%82%B1%E3%83%BC%E3%82%B9">
<a class="header-anchor-link" href="#%E6%A8%99%E6%BA%96%E3%81%AEpdb%E3%81%A7%E3%81%AF%E3%82%AB%E3%83%90%E3%83%BC%E3%81%A7%E3%81%8D%E3%81%AA%E3%81%84%E3%83%A6%E3%83%BC%E3%82%B9%E3%82%B1%E3%83%BC%E3%82%B9" aria-hidden="true"></a> 標準のPDBではカバーできないユースケース</h4>
<p><img src="https://res.cloudinary.com/zenn/image/fetch/s--6dFXMG3M--/c_limit%2Cf_auto%2Cfl_progressive%2Cq_auto%2Cw_1200/https://storage.googleapis.com/zenn-user-upload/deployed-images/13e3970ad2e75a95ce993b71.png%3Fsha%3Dab1c6bc11cc4ba271d05320abdbe746fe9ddc50a" alt="CassadraクラスターとPDB" loading="lazy" class="md-img"></p>
<ul>
<li>Cassandraのクラスターで、Shardのレプリケーション範囲をカバーするPDBを考える
<ul>
<li>5レプリカのうち3つにShardを複製するとした場合、3/5のPodに対するPDBを5つ用意することになる</li>
<li>1つのPodが、複数のPDBの<code>{.spec.selector}</code>からマッチしてしまう → このようなPDBは作成できない</li>
</ul>
</li>
</ul>
<h3 id="federated-pdb%E3%81%A3%E3%81%A6%E3%81%84%E3%81%86%E3%81%AE%E3%82%92%E8%80%83%E3%81%88%E3%81%A6%E3%81%BF%E3%81%9F">
<a class="header-anchor-link" href="#federated-pdb%E3%81%A3%E3%81%A6%E3%81%84%E3%81%86%E3%81%AE%E3%82%92%E8%80%83%E3%81%88%E3%81%A6%E3%81%BF%E3%81%9F" aria-hidden="true"></a> Federated PDBっていうのを考えてみた</h3>
<h4 id="federated-pdb%E3%81%AE%E5%9F%BA%E6%9C%AC%E3%82%A2%E3%82%A4%E3%83%87%E3%82%A2">
<a class="header-anchor-link" href="#federated-pdb%E3%81%AE%E5%9F%BA%E6%9C%AC%E3%82%A2%E3%82%A4%E3%83%87%E3%82%A2" aria-hidden="true"></a> Federated PDBの基本アイデア</h4>
<p><img src="https://res.cloudinary.com/zenn/image/fetch/s--qFrnCiH8--/c_limit%2Cf_auto%2Cfl_progressive%2Cq_auto%2Cw_1200/https://storage.googleapis.com/zenn-user-upload/deployed-images/ba6e1ffb7dbbd7917300d8a8.png%3Fsha%3D43660e1e7f23115db4bdc0321a52d51ee13bfbb1" alt="Federated PDBの基本アイデア" loading="lazy" class="md-img"></p>
<ul>
<li>1つのDistributed PDBリソースに対して、1つの子PDB</li>
<li>指定された他のPDB(Federation PDB)の<code>{.status}</code>に応じて、子PDBの<code>{.spec}</code>を書き換える
<ul>
<li>Federation PDBは複数でもよい</li>
<li>Federation PDBは他のDistributed PDBの子PDBでもよい(Bidirectional)</li>
</ul>
</li>
</ul>
<h4 id="cassandra%E3%82%AF%E3%83%A9%E3%82%B9%E3%82%BF%E3%83%BC%E3%81%A8federated-pdb">
<a class="header-anchor-link" href="#cassandra%E3%82%AF%E3%83%A9%E3%82%B9%E3%82%BF%E3%83%BC%E3%81%A8federated-pdb" aria-hidden="true"></a> CassandraクラスターとFederated PDB</h4>
<p><img src="https://res.cloudinary.com/zenn/image/fetch/s--rJQzye6k--/c_limit%2Cf_auto%2Cfl_progressive%2Cq_auto%2Cw_1200/https://storage.googleapis.com/zenn-user-upload/deployed-images/d280f67920c0e16a10381771.png%3Fsha%3D3e906bdfd5347a5a433434d2d09d8d8e279f9b9d" alt="CassandraクラスターとFederated PDB" loading="lazy" class="md-img"></p>
<ul>
<li>Distributed PDBリソース
<ul>
<li>
<code>{.spec.maxUnavailable}</code>、<code>{.spec.minAvailable}</code>、<code>{.spec.selector}</code>に加えて、<code>{.spec.federation}</code>がある</li>
<li>
<code>{.spec.selector}</code>1つのPodを選択する（のが基本と思われる）。このPodに対する子PDBが作られる</li>
<li>
<code>{.spec.federation}</code>にFederation PDBとなるPDBリソースを指定する</li>
</ul>
</li>
<li>Cassandraクラスターのユースケースに適用した場合
<ul>
<li>
<code>{.spec.selector}</code>を1つのレプリカにマッチさせる</li>
<li>Shardの複製先のレプリカ（に対するPDB）をFederation PDBに指定する</li>
<li>この図の例では、Distributed PDBを5つapplyし、コントローラーによって子PDBがそれぞれ1つずつ作成される。それぞれのDistributed PDBは他のDPDBの子PDBをFederation PDBとして参照している</li>
<li>1つのレプリカがevictされると、それをFedration PDBとして参照しているPDBのspecを変更して、同じShardがそれ移動evictされないようになる</li>
</ul>
</li>
</ul>
<h4 id="multi-namespace-pdb">
<a class="header-anchor-link" href="#multi-namespace-pdb" aria-hidden="true"></a> Multi Namespace PDB</h4>
<p><img src="https://res.cloudinary.com/zenn/image/fetch/s--NFkeWoYs--/c_limit%2Cf_auto%2Cfl_progressive%2Cq_auto%2Cw_1200/https://storage.googleapis.com/zenn-user-upload/deployed-images/07bc67a99d12bea7b655298e.png%3Fsha%3D2cab8a81946e599c8e2f9db2c8afbf67c2d4978c" alt="Multi Namespace PDB" loading="lazy" class="md-img"></p>
<ul>
<li>Namespaceを跨いでFederation PDBを指定できる</li>
<li>これによってNamespceを跨いで作用するPDBを実現できる</li>
</ul>
<h4 id="multi-cluster-pdb">
<a class="header-anchor-link" href="#multi-cluster-pdb" aria-hidden="true"></a> Multi Cluster PDB</h4>
<p><img src="https://res.cloudinary.com/zenn/image/fetch/s--Jy-Cbr6Y--/c_limit%2Cf_auto%2Cfl_progressive%2Cq_auto%2Cw_1200/https://storage.googleapis.com/zenn-user-upload/deployed-images/16cd70ffc17136cb4fbc0bec.png%3Fsha%3D280d3d1f8ea3689f1ea5869fd0c61ce70a6c670c" alt="Multi Cluster PDB" loading="lazy" class="md-img"></p>
<ul>
<li>クラスターを跨いでFederation PDBを指定できる</li>
<li>各クラスターにコントローラーをデプロイしておく</li>
<li>これによってクラスターを跨いで作用するPDBを実現できる</li>
</ul>
<h3 id="%E3%83%87%E3%83%A2">
<a class="header-anchor-link" href="#%E3%83%87%E3%83%A2" aria-hidden="true"></a> デモ</h3>
<p>3つのKubernetesにまたがるFederated PDBのデモ。スライドのユースケースよりも少し複雑な構成で、9レプリカで5つにShardが複製されるクラスターになっている。</p>
<ul>
<li>ローカルマシン上にkindクラスタx3</li>
</ul>
<div class="code-block-container"><pre><code>$ kubeclt config get-contexts
CURRENT   NAME         CLUSTER      AUTHINFO     NAMESPACE
          kind-blue    kind-blue    kind-blue
*         kind-green   kind-green   kind-green
          kind-red     kind-red     kind-red
</code></pre></div><ul>
<li>9つのレプリカを3クラスタに分散配置</li>
</ul>
<div class="code-block-container"><pre><code>$ for i in red blue green; do kubectl --context=kind-$i get pods --show-labels; done
NAME                 READY   STATUS    RESTARTS   AGE     LABELS
database-00-10-20   1/1     Running   0          2m33s   app=database,ring=00-10-20
database-30-40-50   1/1     Running   0          2m32s   app=database,ring=30-40-50
database-60-70-80   1/1     Running   0          2m31s   app=database,ring=60-70-80
NAME                 READY   STATUS    RESTARTS   AGE     LABELS
database-10-20-30   1/1     Running   0          2m32s   app=database,ring=10-20-30
database-40-50-60   1/1     Running   0          2m32s   app=database,ring=40-50-60
database-70-80-00   1/1     Running   0          2m31s   app=database,ring=70-80-00
NAME                 READY   STATUS    RESTARTS   AGE     LABELS
database-20-30-40   1/1     Running   0          2m32s   app=database,ring=20-30-40
database-50-60-70   1/1     Running   0          2m32s   app=database,ring=50-60-70
database-80-00-10   1/1     Running   0          2m31s   app=database,ring=80-00-10
</code></pre></div><ul>
<li>各Podに対応するPDBが作られている</li>
</ul>
<div class="code-block-container"><pre><code>$ for i in red blue green; do kubectl --context=kind-$i get pdb; done
NAME                 MIN AVAILABLE   MAX UNAVAILABLE   ALLOWED DISRUPTIONS   AGE
database-00-10-20   4               N/A               1                     26s
database-30-40-50   4               N/A               1                     23s
database-60-70-80   4               N/A               1                     22s
NAME                 MIN AVAILABLE   MAX UNAVAILABLE   ALLOWED DISRUPTIONS   AGE
database-10-20-30   4               N/A               1                     25s
database-40-50-60   4               N/A               1                     22s
database-70-80-00   4               N/A               1                     22s
NAME                 MIN AVAILABLE   MAX UNAVAILABLE   ALLOWED DISRUPTIONS   AGE
database-20-30-40   4               N/A               1                     23s
database-50-60-70   4               N/A               1                     22s
database-80-00-10   4               N/A               1                     22s
</code></pre></div><ul>
<li>Podをひとつevictすると、Shardが複製されている他のPodのPDBが<code>allowedDisruptions=0</code>となり、それ以上Evictされないようになる</li>
</ul>
<div class="code-block-container"><pre><code>$ for i in red blue green; do kubectl --context=kind-$i get pdb; done
NAME                 MIN AVAILABLE   MAX UNAVAILABLE   ALLOWED DISRUPTIONS   AGE
database-00-10-20   4               N/A               1                     3m13s
database-30-40-50   4               N/A               0                     3m10s &lt;-- evicted pod
database-60-70-80   4               N/A               1                     3m9s
NAME                 MIN AVAILABLE   MAX UNAVAILABLE   ALLOWED DISRUPTIONS   AGE
database-10-20-30   4               N/A               0                     3m12s
database-40-50-60   4               N/A               0                     3m9s
database-70-80-00   4               N/A               1                     3m9s
NAME                 MIN AVAILABLE   MAX UNAVAILABLE   ALLOWED DISRUPTIONS   AGE
database-20-30-40   4               N/A               0                     3m10s
database-50-60-70   4               N/A               0                     3m9s
database-80-00-10   4               N/A               1                     3m9s
</code></pre></div><h2 id="%E6%89%80%E6%84%9F">
<a class="header-anchor-link" href="#%E6%89%80%E6%84%9F" aria-hidden="true"></a> 所感</h2>
<ul>
<li>1つのPodのevictが他のPDBに伝搬するのにタイムラグがあり、これが実用上どの程度問題になるかが気になった</li>
<li>全体としての挙動が予想しづらい印象を持ったがどうなのか</li>
<li>コントローラーが複数クラスタに1つずつ配置されて協調動作する、という構成をシンプルな仕組みで実現していて面白い
<ul>
<li>1つのクラスタにコントローラーがいて、他クラスタのリソースをコントロールするのではない</li>
<li>コントローラーが直接やり取りするのではなく、PDBの<code>{.status}</code>を介して影響しあう。互いに疎結合な仕組み</li>
<li>ロマンを感じる</li>
</ul>
</li>
</ul>
<p>以上。</p>


KubeCon EU 2023 Recap

このセッションを聴いた個人的なモチベーション

Pod Disruption Budget(PDB)ってこんなやつ

Federated PDBっていうのを考えてみた

Discussion