<h2 id="%E6%9C%AC%E8%A8%98%E4%BA%8B%E3%81%AE%E5%89%8D%E6%8F%90" data-line="0" class="code-line">
<a class="header-anchor-link" href="#%E6%9C%AC%E8%A8%98%E4%BA%8B%E3%81%AE%E5%89%8D%E6%8F%90" aria-hidden="true"></a> 本記事の前提</h2>
<p data-line="1" class="code-line">本記事では、Google CloudのCloud Monitoringを用いて、「CloudRunサービスの公開URLに対する4XX/認証失敗の急増」を検知する簡易的な仕組みを紹介してます。</p>
<ul data-line="3" class="code-line">
<li data-line="3" class="code-line">Cloud Monitoringでできる範囲で行う
<ul data-line="4" class="code-line">
<li data-line="4" class="code-line">特別な追加課金サービスは利用しない（Cloud Armorサービスは対象外）</li>
<li data-line="5" class="code-line">DDOS対策としてのリアルタイム検知が目的ではなく、最短でも1分後に検知できればよし</li>
</ul>
</li>
</ul>
<aside class="msg message"><span class="msg-symbol">!</span><div class="msg-content">
<p data-line="8" class="code-line">本記事の情報は2025/11/27時点での情報となります。<br>
最新情報については、Google Cloudの情報をご参照ください！</p>
</div></aside>
<h2 id="cloud-monitoring%E3%82%B5%E3%83%BC%E3%83%93%E3%82%B9%E3%81%A8%E3%81%AF%EF%BC%9F" data-line="12" class="code-line">
<a class="header-anchor-link" href="#cloud-monitoring%E3%82%B5%E3%83%BC%E3%83%93%E3%82%B9%E3%81%A8%E3%81%AF%EF%BC%9F" aria-hidden="true"></a> Cloud Monitoringサービスとは？</h2>
<p data-line="13" class="code-line">Cloud Monitoring は、Google Cloud 上の各サービスのメトリクスを収集し、可視化（ダッシュボード）、閾値によるアラート、ログ連携などを提供する Google Cloud の監視サービスです。</p>
<p data-line="15" class="code-line">例えば</p>
<ul data-line="16" class="code-line">
<li data-line="16" class="code-line">CPU / Memory / レスポンス時間などの基本メトリクス</li>
<li data-line="17" class="code-line">Cloud Run / Load Balancer / Cloud Functions の各サービスのリクエスト統計</li>
<li data-line="18" class="code-line">カスタムメトリクス</li>
<li data-line="19" class="code-line">アラートポリシー（閾値判定・通知）</li>
<li data-line="20" class="code-line">SLO / uptime check<br>
<strong>サービス運用の監視基盤として標準で利用できるツール</strong>です。</li>
</ul>
<h2 id="%E6%96%99%E9%87%91" data-line="23" class="code-line">
<a class="header-anchor-link" href="#%E6%96%99%E9%87%91" aria-hidden="true"></a> 料金</h2>
<p data-line="24" class="code-line">Cloud Monitoring の標準メトリクスは<strong>基本無料で利用</strong>でき、<br>
アラートポリシー作成・通知（メール / Slack 等）も追加料金なしで使用できます。<br>
私がこのサービスを利用したのは<strong>基本無料</strong>が大きな要因です！無料がありがたい！</p>
<p data-line="28" class="code-line">ただし、カスタムメトリクスやCloud Logging（log-based metric を使う場合）、Cloud Armorを利用する場合は追加コストが発生するようですので要確認です！</p>
<p data-line="30" class="code-line">今回は、<strong>標準メトリクスのみ</strong>を取得するため、追加コストは発生しません！</p>
<h2 id="%E4%BB%8A%E5%9B%9E%E3%82%84%E3%82%8A%E3%81%9F%E3%81%8B%E3%81%A3%E3%81%9F%E3%81%93%E3%81%A8" data-line="33" class="code-line">
<a class="header-anchor-link" href="#%E4%BB%8A%E5%9B%9E%E3%82%84%E3%82%8A%E3%81%9F%E3%81%8B%E3%81%A3%E3%81%9F%E3%81%93%E3%81%A8" aria-hidden="true"></a> 今回やりたかったこと</h2>
<ul data-line="34" class="code-line">
<li data-line="34" class="code-line"><strong>公開URLにアクセスが集中して、短時間に4XXが連続発生したらアラートを出すこと</strong></li>
</ul>
<p data-line="36" class="code-line">具体的には、</p>
<ul data-line="38" class="code-line">
<li data-line="38" class="code-line">Google RunサービスでAuth認証失敗や403/404などの4XXが急増したとき</li>
<li data-line="39" class="code-line">DDoS というほどではないが「明らかな異常」は検知したい</li>
<li data-line="40" class="code-line">リアルタイムで検知できなくても、1分後に検知できればOK</li>
</ul>
<p data-line="42" class="code-line">という「簡易的な異常検知」をCloud Monitoring で実現しました。</p>
<p data-line="44" class="code-line">この後、実際の設定画面で設定方法を紹介しつつ、つまずきやすい部分をご紹介していきます。</p>
<h2 id="%E5%AE%9F%E9%9A%9B%E3%81%AE%E8%A8%AD%E5%AE%9A%E3%81%A7%E7%9B%B4%E9%9D%A2%E3%81%97%E3%81%9F%E6%B3%A8%E6%84%8F%E7%82%B9" data-line="46" class="code-line">
<a class="header-anchor-link" href="#%E5%AE%9F%E9%9A%9B%E3%81%AE%E8%A8%AD%E5%AE%9A%E3%81%A7%E7%9B%B4%E9%9D%A2%E3%81%97%E3%81%9F%E6%B3%A8%E6%84%8F%E7%82%B9" aria-hidden="true"></a> 実際の設定で直面した注意点</h2>
<p data-line="47" class="code-line">Cloud Monitoring で 4XX の急増を検知するには、まず「アラートポリシー」を作成します。</p>
<h2 id="cloud-monitoring-%E3%81%AE%E3%82%A2%E3%83%A9%E3%83%BC%E3%83%88%E3%83%9D%E3%83%AA%E3%82%B7%E3%83%BC%E6%A7%8B%E9%80%A0" data-line="49" class="code-line">
<a class="header-anchor-link" href="#cloud-monitoring-%E3%81%AE%E3%82%A2%E3%83%A9%E3%83%BC%E3%83%88%E3%83%9D%E3%83%AA%E3%82%B7%E3%83%BC%E6%A7%8B%E9%80%A0" aria-hidden="true"></a> Cloud Monitoring のアラートポリシー構造</h2>
<p data-line="51" class="code-line">Cloud Monitoring のアラートは、まず「アラートポリシー」を作成し、<br>
その中で「アラート条件（Condition）」を設定します。</p>
<p data-line="54" class="code-line">下記のような構造になっています：</p>
<table data-line="56" class="code-line">
<thead data-line="56" class="code-line">
<tr data-line="56" class="code-line">
<th>大項目</th>
<th>中項目（画面での場所）</th>
<th>設定内容</th>
<th>これって何？（日本語で説明）</th>
</tr>
</thead>
<tbody data-line="58" class="code-line">
<tr data-line="58" class="code-line">
<td><strong>アラート条件（Condition）</strong></td>
<td>—</td>
<td>どのメトリクスをどう判定してアラートにするかを決める中心部分</td>
<td><em>今回もっともハマりポイントが多い部分</em></td>
</tr>
<tr data-line="59" class="code-line">
<td></td>
<td><strong>1. 指標（Metric）</strong></td>
<td>監視したいデータを選ぶ（例：Cloud Run のリクエスト数）</td>
<td>例：Cloud Run のリクエスト数（request_count）など。</td>
</tr>
<tr data-line="60" class="code-line">
<td></td>
<td><strong>2. フィルタ（Filter）</strong></td>
<td>レスポンスコードなど、特定のラベルで絞り込む</td>
<td>メトリクスに付いている属性（response_code / location など）を使って、対象にしたいデータだけに絞り込むところ</td>
</tr>
<tr data-line="61" class="code-line">
<td></td>
<td><strong>3. 集計（Transform）</strong></td>
<td>過去1分の平均・レート（1/s）など、判定用に数値を整形</td>
<td>メトリクスの生データを、アラート判定に使いやすい統計値（平均・レート）に変換する方法を決めるところ</td>
</tr>
<tr data-line="62" class="code-line">
<td></td>
<td><strong>4. トリガー（Trigger）</strong></td>
<td>閾値・継続時間・違反割合などの設定</td>
<td>「どこから異常と判断して通知するか？」の条件</td>
</tr>
</tbody>
</table>
<h3 id="1.%E6%8C%87%E6%A8%99%EF%BC%88metric%EF%BC%89%E3%81%8C%E4%B8%80%E5%BA%A6%E3%82%82%E7%99%BA%E7%94%9F%E3%81%97%E3%81%A6%E3%81%84%E3%81%AA%E3%81%84%E3%81%A8%E5%80%99%E8%A3%9C%E3%81%AB%E5%87%BA%E3%81%A6%E3%81%93%E3%81%AA%E3%81%84" data-line="65" class="code-line">
<a class="header-anchor-link" href="#1.%E6%8C%87%E6%A8%99%EF%BC%88metric%EF%BC%89%E3%81%8C%E4%B8%80%E5%BA%A6%E3%82%82%E7%99%BA%E7%94%9F%E3%81%97%E3%81%A6%E3%81%84%E3%81%AA%E3%81%84%E3%81%A8%E5%80%99%E8%A3%9C%E3%81%AB%E5%87%BA%E3%81%A6%E3%81%93%E3%81%AA%E3%81%84" aria-hidden="true"></a> 1.指標（Metric）が一度も発生していないと候補に出てこない</h3>
<ul data-line="66" class="code-line">
<li data-line="66" class="code-line">
<p data-line="66" class="code-line">Cloud Monitoring は<strong>直近データが存在するメトリクスしか UI に表示されない</strong>ため、<br>
監視対象サービス：例Cloud Run がリクエストを受けていなかったり、4XX を1度も返していないと、対象メトリクスや response_code の選択肢が出てきません<br>
<strong>これは暗黙的な仕様で、とってもわかりにくく感じました</strong><br>
<img src="https://storage.googleapis.com/zenn-user-upload/a711275a1377-20251127.png" alt="" class="md-img" loading="lazy"></p>
</li>
<li data-line="71" class="code-line">
<p data-line="71" class="code-line"><strong>response_code の候補も “実際に出た値” しか表示されない</strong><br>
4XX をまとめて検知したかったのですが、UI では出現済みのコード（200 など）しか表示されず、4XX が選択できない状態でした。<br>
<strong>response_code のところで、「正規表現 <code>^4.*</code> 」を直接入れる必要がありました。</strong></p>
</li>
</ul>
<h3 id="2.%E9%9B%86%E8%A8%88%EF%BC%88transform%EF%BC%89-%E3%81%AE%E3%83%AD%E3%83%BC%E3%83%AA%E3%83%B3%E3%82%B0%E3%82%A6%E3%82%A3%E3%83%B3%E3%83%89%E3%82%A6%E3%81%AF%E6%9C%80%E5%B0%8F-1-%E5%88%86" data-line="75" class="code-line">
<a class="header-anchor-link" href="#2.%E9%9B%86%E8%A8%88%EF%BC%88transform%EF%BC%89-%E3%81%AE%E3%83%AD%E3%83%BC%E3%83%AA%E3%83%B3%E3%82%B0%E3%82%A6%E3%82%A3%E3%83%B3%E3%83%89%E3%82%A6%E3%81%AF%E6%9C%80%E5%B0%8F-1-%E5%88%86" aria-hidden="true"></a> 2.集計（Transform） のローリングウィンドウは最小 1 分</h3>
<ul data-line="76" class="code-line">
<li data-line="76" class="code-line">Cloud Monitoring では<strong>秒単位の集計ができず、最小 1 分</strong>のローリングウィンドウとなります。そのため、数秒間の瞬間的なスパイクはリアルタイムには検知できません。<br>
<img src="https://storage.googleapis.com/zenn-user-upload/cff1ea79e8ea-20251127.png" alt="" class="md-img" loading="lazy">
</li>
</ul>
<h3 id="3.%E9%9B%86%E8%A8%88%EF%BC%88transform%EF%BC%89%E3%81%AFrate%E3%81%A7%E3%81%AE%E5%88%A4%E5%AE%9A%E3%81%AB%E3%81%AA%E3%82%8B%E3%81%9F%E3%82%81%E7%9B%B4%E8%A6%B3%E3%81%A8%E3%82%BA%E3%83%AC%E3%82%8B" data-line="79" class="code-line">
<a class="header-anchor-link" href="#3.%E9%9B%86%E8%A8%88%EF%BC%88transform%EF%BC%89%E3%81%AFrate%E3%81%A7%E3%81%AE%E5%88%A4%E5%AE%9A%E3%81%AB%E3%81%AA%E3%82%8B%E3%81%9F%E3%82%81%E7%9B%B4%E8%A6%B3%E3%81%A8%E3%82%BA%E3%83%AC%E3%82%8B" aria-hidden="true"></a> 3.集計（Transform）はrateでの判定になるため直観とズレる</h3>
<ul data-line="80" class="code-line">
<li data-line="80" class="code-line">Cloud Run のリクエスト系メトリクスは “counter 型” のため、Cloud Monitoring では自動的に rate（1秒あたり何件発生したか）に変換されます。そのため、件数（◯件発生）ではなく「1/s（1秒あたり◯件）」で閾値を決める必要があります。</li>
</ul>
<p data-line="82" class="code-line">今回のケースでも、実際には<strong>1分間の平均レートが 1/s を超えたらアラート</strong> という設定になりました。ただしこの場合、「どの程度のレートが “異常” といえるのか？」の判断が直感的でなく、<br>
<strong>件数ベースで考えていた従来の感覚とズレており、"レート換算"に慣れていないためか？閾値の決定にかなり悩みました。</strong></p>
<h3 id="4.1%E5%88%86%E5%B9%B3%E5%9D%87%E3%81%A7%E5%88%A4%E5%AE%9A%E3%81%99%E3%82%8B%E3%81%9F%E3%82%81%E3%80%81%E6%80%A5%E5%A2%97%E3%81%97%E3%81%A6%E3%82%82%E3%82%A2%E3%83%A9%E3%83%BC%E3%83%88%E3%81%AF%E6%9C%80%E5%A4%A760%E7%A7%92%E9%81%85%E3%82%8C%E3%82%8B" data-line="86" class="code-line">
<a class="header-anchor-link" href="#4.1%E5%88%86%E5%B9%B3%E5%9D%87%E3%81%A7%E5%88%A4%E5%AE%9A%E3%81%99%E3%82%8B%E3%81%9F%E3%82%81%E3%80%81%E6%80%A5%E5%A2%97%E3%81%97%E3%81%A6%E3%82%82%E3%82%A2%E3%83%A9%E3%83%BC%E3%83%88%E3%81%AF%E6%9C%80%E5%A4%A760%E7%A7%92%E9%81%85%E3%82%8C%E3%82%8B" aria-hidden="true"></a> 4.1分平均で判定するため、急増してもアラートは最大60秒遅れる</h3>
<p data-line="87" class="code-line">2にも関連しますが、最小1分での検知となるため、3秒だけ1000件/秒のような爆発的スパイクも最終的には平均値に反映されますが、アラートが鳴るのは最大60秒後です。</p>
<h3 id="5.-%E3%83%88%E3%83%AA%E3%82%AC%E3%83%BC%EF%BC%88trigger%EF%BC%89%E3%81%AE%E3%80%8C%E9%81%95%E5%8F%8D%E3%81%97%E3%81%A6%E3%81%84%E3%82%8B%E6%99%82%E7%B3%BB%E5%88%97%E3%81%AE%E6%9C%80%E5%B0%8F%E5%89%B2%E5%90%88%E3%80%8D1%25-%E3%81%AE%E6%84%8F%E5%91%B3%E3%81%8C%E5%88%86%E3%81%8B%E3%82%8A%E3%81%AB%E3%81%8F%E3%81%84%EF%BC%88%E5%8F%82%E8%80%83%E7%A8%8B%E5%BA%A6%E3%81%AE%E7%90%86%E8%A7%A3%E3%81%A7%E3%82%88%E3%81%8D%EF%BC%89" data-line="89" class="code-line">
<a class="header-anchor-link" href="#5.-%E3%83%88%E3%83%AA%E3%82%AC%E3%83%BC%EF%BC%88trigger%EF%BC%89%E3%81%AE%E3%80%8C%E9%81%95%E5%8F%8D%E3%81%97%E3%81%A6%E3%81%84%E3%82%8B%E6%99%82%E7%B3%BB%E5%88%97%E3%81%AE%E6%9C%80%E5%B0%8F%E5%89%B2%E5%90%88%E3%80%8D1%25-%E3%81%AE%E6%84%8F%E5%91%B3%E3%81%8C%E5%88%86%E3%81%8B%E3%82%8A%E3%81%AB%E3%81%8F%E3%81%84%EF%BC%88%E5%8F%82%E8%80%83%E7%A8%8B%E5%BA%A6%E3%81%AE%E7%90%86%E8%A7%A3%E3%81%A7%E3%82%88%E3%81%8D%EF%BC%89" aria-hidden="true"></a> 5. トリガー（Trigger）の「違反している時系列の最小割合」1% の意味が分かりにくい（参考程度の理解でよき）</h3>
<p data-line="90" class="code-line">Cloud Monitoring では、メトリクスが複数の時系列（リージョン別・リビジョン別など）に分かれている場合に、どの程度の割合が閾値を超えたらアラートにするかを指定できます。</p>
<p data-line="92" class="code-line">ただし、今回のように <strong>例Cloud Run の特定サービス（A）の 4XX だけを対象にしている場合、<br>
時系列は1本だけになる</strong>ため、この設定は実質的に挙動へ影響しません。</p>
<p data-line="95" class="code-line">UI に表示されていて少し紛らわしい項目ですが、単一サービスを監視する場合は<br>
デフォルトの「1%」のままで問題ありません。<br>
<img src="https://storage.googleapis.com/zenn-user-upload/a7e5f6f465c1-20251127.png" alt="" class="md-img" loading="lazy"></p>
<h3 id="6.-%E5%85%A8%E4%BD%93%E7%9A%84%E3%81%ABui-%E3%81%8C%E6%8A%BD%E8%B1%A1%E7%9A%84%E3%81%A7%E3%80%81%E3%81%A9%E3%81%AE%E8%A8%AD%E5%AE%9A%E3%81%8C%E4%BD%95%E3%82%92%E6%84%8F%E5%91%B3%E3%81%97%E3%81%A6%E3%81%84%E3%82%8B%E3%81%AE%E3%81%8B%E5%88%86%E3%81%8B%E3%82%8A%E3%81%AB%E3%81%8F%E3%81%84" data-line="99" class="code-line">
<a class="header-anchor-link" href="#6.-%E5%85%A8%E4%BD%93%E7%9A%84%E3%81%ABui-%E3%81%8C%E6%8A%BD%E8%B1%A1%E7%9A%84%E3%81%A7%E3%80%81%E3%81%A9%E3%81%AE%E8%A8%AD%E5%AE%9A%E3%81%8C%E4%BD%95%E3%82%92%E6%84%8F%E5%91%B3%E3%81%97%E3%81%A6%E3%81%84%E3%82%8B%E3%81%AE%E3%81%8B%E5%88%86%E3%81%8B%E3%82%8A%E3%81%AB%E3%81%8F%E3%81%84" aria-hidden="true"></a> 6. 全体的にUI が抽象的で、どの設定が何を意味しているのか分かりにくい</h3>
<ul data-line="100" class="code-line">
<li data-line="100" class="code-line">特に Metric / Filter / Transform / Trigger の用語が抽象的で、目的どおりの設定になるまで試行錯誤が必要でした...</li>
</ul>
<h2 id="%E6%9C%80%E5%BE%8C%E3%81%AB" data-line="102" class="code-line">
<a class="header-anchor-link" href="#%E6%9C%80%E5%BE%8C%E3%81%AB" aria-hidden="true"></a> 最後に</h2>
<p data-line="103" class="code-line">Google Cloudサービスを利用する機会が増えてきましたが、Googleのドキュメントを見てもわからないことが多く、検証しながら進めております。少しでもお役にたてる場面があればうれしいです。</p>


Cloud Monitoring のアラート設定、思ったよりハマったので記録を残す

1.指標（Metric）が一度も発生していないと候補に出てこない

2.集計（Transform） のローリングウィンドウは最小 1 分

3.集計（Transform）はrateでの判定になるため直観とズレる

4.1分平均で判定するため、急増してもアラートは最大60秒遅れる

5. トリガー（Trigger）の「違反している時系列の最小割合」1% の意味が分かりにくい（参考程度の理解でよき）

6. 全体的にUI が抽象的で、どの設定が何を意味しているのか分かりにくい

Discussion