😸

Amazon Bedrock 独断で選んだアップデート

2024/12/28に公開

2024年は、AI inference界隈進化が激しかったです。Amazon BedrockもAI Inference Application やAgentを作る上で押しアップデートがたくさんありました。

 Model
 Optimize model inference for latencyAmazon Bedrock の基盤モデル向けにレイテンシーを最適化した推論により、AI アプリケーションの応答時間が短縮され、応答性が向上します

https://docs.aws.amazon.com/ja_jp/bedrock/latest/userguide/latency-optimized-inference.html

 Amazon Bedrock announces preview of prompt cachinghttps://aws.amazon.com/about-aws/whats-new/2024/12/amazon-bedrock-preview-prompt-caching/
プロンプトキャッシングはコスト効果高いと思いますが、一ヶ月ほどたちますが、使えていない

 Amazon Bedrock Model Distilationhttps://aws.amazon.com/jp/blogs/news/build-faster-more-cost-efficient-highly-accurate-models-with-amazon-bedrock-model-distillation-preview/
小さいFMでも応答改善が見込まれるものだが、Provisoned throughputが必要なので、コスト効果がどうなるかは考慮必要
Prompt caching、Model Distilationはコスト効果が高そう。モデル蒸留がオンデマンドでも使えるといいが
https://speakerdeck.com/pharma_x_tech/llmahurikesiyonno-fine-tunningtozheng-liu-wohuo-yong-sitagai-shan

 Agent
 Amazon Bedrock Knowledge Bases now supports custom connectors and ingestion of streaming dataKnowledge BaseのSyncでなく、Knowledege Baseのデータの更新、削除ができる

https://aws.amazon.com/about-aws/whats-new/2024/12/amazon-bedrock-knowledge-bases-connectors-ingestion-data/

 Amazon Bedrockのマルチエージェントコラボレーションhttps://aws.amazon.com/jp/blogs/news/introducing-multi-agent-collaboration-capability-for-amazon-bedrock/
複数データソースから回答させるAgentから結論を導くようなAgentがつくれてしまう。
https://speakerdeck.com/minorun365/re-inventdefa-biao-sareta-bedrocknoxin-ji-neng-wose-shi-tutemarutiragezientonikuraudoxuan-ding-sasetemitajian?slide=6

 Aurora Serverless v2 zero capacity問い合わせないときはゼロスケールにしておけて、コストメリット高い。zero capacityからのスケールは多少時間がかかるので、リクエスト時のRetryは考慮必要。

Custom Model Importでも、アイドル時はModel Unit zeroになるので、同様リトライ考慮が必要になります。

 RAG
 ディスク最適化ベクトルエンジンが、Amazon OpenSearch Serviceで利用可能に検索コストを1/3で行えるメリットあり。メモリとは異なり、レイテンシとか上がるので許容出来るユースケースには選択できる。

https://aws.amazon.com/jp/about-aws/whats-new/2024/11/disk-optimized-vector-engine-amazon-opensearch-service/?nc1=h_ls

Model

Optimize model inference for latency

Amazon Bedrock announces preview of prompt caching

Amazon Bedrock Model Distilation

Agent

Amazon Bedrock Knowledge Bases now supports custom connectors and ingestion of streaming data

Amazon Bedrockのマルチエージェントコラボレーション

Aurora Serverless v2 zero capacity

RAG

ディスク最適化ベクトルエンジンが、Amazon OpenSearch Serviceで利用可能に

Discussion