😸
Amazon Bedrock 独断で選んだアップデート
2024年は、AI inference界隈進化が激しかったです。Amazon BedrockもAI Inference Application やAgentを作る上で押しアップデートがたくさんありました。
Model
Optimize model inference for latency
Amazon Bedrock の基盤モデル向けにレイテンシーを最適化した推論により、AI アプリケーションの応答時間が短縮され、応答性が向上します
Amazon Bedrock announces preview of prompt caching
プロンプトキャッシングはコスト効果高いと思いますが、一ヶ月ほどたちますが、使えていない
Amazon Bedrock Model Distilation
小さいFMでも応答改善が見込まれるものだが、Provisoned throughputが必要なので、コスト効果がどうなるかは考慮必要
Prompt caching、Model Distilationはコスト効果が高そう。モデル蒸留がオンデマンドでも使えるといいが
Agent
Amazon Bedrock Knowledge Bases now supports custom connectors and ingestion of streaming data
Knowledge BaseのSyncでなく、Knowledege Baseのデータの更新、削除ができる
Amazon Bedrockのマルチエージェントコラボレーション
複数データソースから回答させるAgentから結論を導くようなAgentがつくれてしまう。
Aurora Serverless v2 zero capacity
問い合わせないときはゼロスケールにしておけて、コストメリット高い。zero capacityからのスケールは多少時間がかかるので、リクエスト時のRetryは考慮必要。
Custom Model Importでも、アイドル時はModel Unit zeroになるので、同様リトライ考慮が必要になります。
RAG
ディスク最適化ベクトルエンジンが、Amazon OpenSearch Serviceで利用可能に
検索コストを1/3で行えるメリットあり。メモリとは異なり、レイテンシとか上がるので許容出来るユースケースには選択できる。
Discussion