🥇

「AWSの「高可用性」、どこまで対策してる?」~【aws】今週の人気記事TOP5(2025/10/26)

に公開

【2025/10/26】「AWSの「高可用性」、どこまで対策してる?」今週の人気記事TOP5(2025/10/26)

AWS障害はなぜグローバルに拡大したか? US-EAST-1の「単一障害点」構造を徹底分析

2025年10月、AWSで大規模障害が発生し、世界中のWebサービスに影響が及んだ。原因はUS-EAST-1リージョンにおけるDynamoDBのDNS解決異常であり、グローバルサービスのコントロールプレーンが同リージョンに集中していることが被害を拡大させた。

AWSの初期設計に起因するこの構造は、技術的負債と言える。リトライストームも障害長期化の一因となった。教訓として、マルチリージョンやマルチクラウド構成による高可用性アーキテクチャの検討が重要となる。

MCPのOAuth2認可フローをAmazon Bedrock AgentCore Gatewayで検証してみる

この記事では、Remote MCPをセキュアに公開するための標準的なOAuth2認可フローを、Amazon Bedrock AgentCore Gatewayを用いて検証しています。

まず、MCPクライアントからのアクセスに対し、RFC9728に基づき認可サーバー情報を取得。次に、RFC8414に準拠したAuthorization Server Metadataを取得します。

AgentCore GatewayはRFC9728に準拠し、Amazon Cognitoとの連携でRFC8414にも対応可能であることが確認できました。これにより、AgentCore GatewayがMCPの認可フローを集約し、セキュアなRemote MCP公開に貢献できる可能性を示唆しています。

AIと一緒に一番シンドいECSヘルスチェックを通すまで

ECSのヘルスチェック問題解決をAIと協働した事例。KMS権限、Redis接続、DjangoのHTTPS設定とALLOWED_HOSTS設定など、複数の要因が絡み合った問題を、AIを活用し通常の3倍の速さで解決。AIとの協業では、問題の切り分け、状況確認と修正計画、複雑な提案への注意、適切な情報提供、AIエージェントの変更が重要。AIは万能ではないため、人間が戦略を立てナビゲートすることで、効率的な問題解決が可能になる。

Amazon Q Developer for GitHub で PR を日本語レビューしてもらう

Amazon Q Developer for GitHubでPRを日本語レビューさせるには、リポジトリの.amazonq/rules/に「すべての説明・提案・レビューコメントは日本語で書いてください。」と記述したMarkdownファイルを設置する。これにより、PR作成時や再オープン時にAmazon Qが日本語でレビューコメントを生成する。指摘が細かい面もあるが、他のAIレビューツールと併用することで、より網羅的なレビューが可能になる。

DynamoDB を体系的に学習した記録 - 実践的なサンプルアプリケーション付き

DynamoDBを体系的に学習した記録として、AWS公式ドキュメントを整理し、タスク管理システムのサンプルアプリケーションを構築。
NoSQL設計の基礎から、テーブル設計、データモデリングパターン、インデックス戦略、トランザクション、バッチ処理を実践的に学習。
特に、アクセスパターンファーストの設計思想、隣接リストパターンなどの実践的パターン、コスト最適化の重要性を習得。
GSIのキー属性名やフィルター式の動作など課題も克服し、サンプルコードと詳細な解説ドキュメントをGitHubで公開。

【2025/10/19】「サーバレス進化の波、Bedrock活用、OpenSearch入門…次の一手は?」今週の人気記事TOP5(2025/10/19)

AWS Lambda(Ruby)の起動が遅い…ボトルネックを特定するまでの道のり

Slack Appのレスポンス遅延の原因を調査した結果、AWS Lambda(Ruby)の起動速度がボトルネックと判明。
改善策として、Rubyのバージョンを3.2から3.4にアップグレードしたことと、require 'aws-sdk'を、必要なモジュールのみ(require 'aws-sdk-sqs')を読み込むように変更したことで、起動速度が向上し、3秒以内のレスポンスを達成。
YJITは今回のケースでは効果がなかった。処理時間計測にはBenchmarkの利用が推奨される。

Prometheus + Step Functions + Lambdaで構築するサーバレスオンコール基盤

Nextbeatでは、全員CTOの文化のもと、エンジニア全員参加のオンコール体制を構築。Prometheusでアプリケーションの死活監視とリソース監視を行い、AlertManagerからStep Functionsを起動。Step FunctionsはLambdaを順次実行し、Slack通知とTwilio APIによる電話通知を実施。電話が繋がるまで担当者にループで架電する。監視にはblackbox-exporterを使用。これにより、SaaSに依存しないオンコール基盤を実現した。

AWS Bedrockを利用して、AWSの日本国内に閉じてClaude Codeを利用しよう!!

AWS Bedrockを用いて、日本国内閉域環境でClaude Codeを利用する手順を解説。

構築手順:

  1. Amazon Linux 2023 AMIを基に、Node.js、npm、Claude Codeを導入したAMIを作成。
  2. Terraformを用いてVPC、サブネット、EC2インスタンス、VPCエンドポイント等の閉域環境を構築。この際、IAMロールやセキュリティグループも設定。
  3. SSM経由でEC2に接続後、環境変数を設定しclaudeコマンドを実行。
  4. Claude Codeが起動し、Bedrock経由で日本国内で利用可能なClaude Haiku 4.5が利用可能。

これにより、AWSの日本リージョンに閉じた環境でClaude Codeを利用できるようになる。

OpenSearch入門:Docker Composeで構築 → 検索・マッピング・ISM【初心者向け】

OpenSearchをDocker Composeで構築し、基本的なデータ操作を解説する記事です。ローカル環境にOpenSearchとOpenSearch Dashboardsを構築し、インデックス作成、ドキュメント登録(単一・一括)、全件検索・キーワード検索・集計といった基本的な検索方法を説明します。さらに、ダッシュボードの作成方法、ISMプラグインを用いたデータの自動削除(TTL設定)についても解説します。OpenSearchの基本操作を習得し、ローカル環境で手軽に試せる点が強調されています。

AWSを触ってみる【VPC】

AWS Skill Builderの学習プランでVPCを学習した内容のまとめ。VPCはAWS上に構築できる仮想ネットワークで、ネットワークの分離・制御、高いセキュリティ機能、AWSリソースの安全な配置・連携が可能。パブリック/プライベートサブネット、ルートテーブル、NATゲートウェイ、インターネットゲートウェイといった要素で構成され、VPCウィザードで簡単に構築できる。アベイラビリティゾーン(AZ)は物理的に分離されたデータセンターで高可用性を実現。サブネットCIDRブロックでIPアドレス範囲を分割・管理する。

【2025/10/12】「Bedrock、Kubernetes、自動化...AWSの進化、どこまで追えていますか?」人気記事(2025/10/12)

「ゆっくり実況」みたいな動画をAWSサービスを駆使して作ってみる

この記事では、Amazon PollyとBedrockを活用し、個人で「ゆっくり実況」風の解説動画を作成する過程を紹介しています。

まず、Pollyの音声をFFmpegで調整しアニメ声に近づけ、次にBedrockで生成したキャラクター画像を基にイラストを作成。台本をQ DeveloperでSSMLに変換し、Pollyで音声合成しました。

S3トリガーでLambdaを起動し、ffmpegで音声ピッチ変更を自動化するパイプラインも構築。最終的にPowerPointで動画を制作し、個人でもAWSサービスを組み合わせれば解説動画が制作可能であることを示しました。

GMOペパボに入社しました!

フルスタックエンジニアのKMSN氏がGMOペパボに技術基盤グループとして入社。大規模サービスのインフラ改善、Kubernetes環境でのSRE経験に魅力を感じたことが入社の決め手。入社後1週間でKubernetes未経験ながらもEKSへの機能移行を達成。今後は、エンジニアリングで会社全体の課題解決、特に業務効率化や自動化に注力。AIを活用した自律的な運用基盤構築にも挑戦し、AWSスペシャリストとして社内外への知識発信を目指す。

【28分爆速開発】圧勝したのはどっち? 最新AI Claude Sonnet 4.5 vs 4.0 ハッカソン対決!

AWSのAmazon Bedrockで利用可能なAIモデル、Claude Sonnet 4.5と4.0をAmazon Q Developerを用いてハッカソン形式で比較検証。4.5は28分で「CurioBot」を開発し、実際に動作。一方、4.0は50分かけて「StudyMax AI」を開発するも、APIがスタブのままで動作せず。審査基準に基づき、動作する4.5の方が高評価。開発においては、まず動くMVPを作ることの重要性が示唆された。

AWS×GCPマルチクラウド環境でのプライベートDNS名前解決を実現する

ナレッジワークのtom氏が、AWSとGCPのマルチクラウド環境におけるプライベートDNS名前解決の構成を紹介。Route 53とCloud DNSを連携させ、AWS(aws.internal)とGCP(gcp.internal)間での相互名前解決を実現。GCPからのクエリには、Cloud DNSのIP範囲(35.199.192.0/19)をAWS側で許可するルーティング設定が重要。これにより、マルチクラウド環境でのサービス連携を円滑化。

DynamoDBオンデマンドキャパシティモード徹底解説

DynamoDBオンデマンドキャパシティモードは、トラフィックに応じて自動スケーリングするが、過去ピークのスループットを基準に行われる。スループットはRRU/WRUで定義。ピークの2倍までは瞬時スケーリング可能。スケーリング上限設定も可能。リストア時はウォームスループットがリセットされるため、事前ウォーミングが重要。事前ウォーミングは追加料金が発生する。これらの特性を理解し、事前ウォーミングや最大スループット設定を活用することで、負荷増とコスト増を抑制できる。

【2025/10/5】「AWS最新トレンド、Terraformでどこまで自動化できる?」今週の人気記事TOP5(2025/10/05)

[やってみた]Cloudflareを新規に導入することになったのでTerraformで構築してみた

ネクストビート社で動画配信サービスのコスト最適化のため、CloudflareをTerraformで導入した事例。
Cloudflare providerを用いて、APIトークン作成、R2ストレージ構築、特定ドメインへのアクセス制限をコード化。
アカウントAPIトークンの権限グループID取得に際し、ドキュメント不足をterraform state showで補完。
IP制限をコード管理できた点をメリットとする。
AWS環境との差異により100%Terraform管理ではないものの、当初目的は達成。

ライブカメラに映った落雷をAmazon Novaで検出する試み

ウェザーニューズは、国内2000箇所以上のライブカメラ映像から、Amazon Novaを用いて落雷検出を試みた。
まず、落雷地点周辺のカメラで5分間録画し、映像内の輝度スパイク箇所を特定。
次に、スパイク前後の映像をAmazon Nova Proで解析し、落雷の有無を判定。
プロンプトには役割、目的、定義、誤検出対策などを記述。
検出結果は社内ツールで確認可能で、ウェザーニュースLiVEでも活用。
今後は検出精度向上や、他の事象検出、コンテンツとしての活用を目指す。

Astro×SSTでAWSにさくっとデプロイ

AstroとSSTを組み合わせ、高速なWebサイトをAWSに容易にデプロイする方法を紹介。AstroのアイランドアーキテクチャでCWVを改善し、SSTの高レベルAPIとlink機能でAWS運用の複雑さを削減。ローカル環境でのデプロイ後、GitHub Actions + OIDCによる安全な本番運用フローを構築。コールドスタート対策やキャッシュ戦略、シークレット管理などの高度なトピックも解説。SST v3はPulumi/Terraform 기반으로進化し、より堅牢なDXを提供する。

AWS製AIエージェントOSS Strands Agentsの主要機能ハンズオン

AWS製のOSS、Strands Agentsの主要機能をハンズオン形式で解説。
Agent Loopを基本概念とし、LangChain等の既存フレームワークと比較して、少ないコード量でAIエージェントを構築可能。
エージェントの基本、プロンプト設定、ローカル/S3/カスタムDBによるセッション管理、Hooksによるコールバック、Pydanticによる構造化出力、Python関数/MCPによるTools実装を紹介。
マルチエージェントパターン(Agent as Tools/Swarm/Graph/Workflow)にも対応。
Strands Agentsは、シンプルなコードでAIエージェントを構築できるSDKである。

ECSのログをFireLens&FirehoseでS3に転送する

ECSコンテナのログをFireLensとFirehoseでS3に転送する構成をTerraformで構築した事例。FireLensでログを収集し、CloudWatchとFirehose経由でS3へJSON形式で保存。FireLensはfluent bitベースのカスタムイメージを使用し、CloudWatchとS3へログを振り分ける。FirehoseはS3への配信とパーティション分割を担当。これにより、ログ分析基盤への拡張性を確保しつつ、FireLensコンテナの負荷を軽減。

CareNet Engineers

Discussion