😸

Amazon Bedrock 独断で選んだアップデート

に公開

2024年は、AI inference界隈進化が激しかったです。Amazon BedrockもAI Inference Application やAgentを作る上で押しアップデートがたくさんありました。

Model

Optimize model inference for latency

Amazon Bedrock の基盤モデル向けにレイテンシーを最適化した推論により、AI アプリケーションの応答時間が短縮され、応答性が向上します
https://docs.aws.amazon.com/ja_jp/bedrock/latest/userguide/latency-optimized-inference.html

Amazon Bedrock announces preview of prompt caching

https://aws.amazon.com/about-aws/whats-new/2024/12/amazon-bedrock-preview-prompt-caching/

プロンプトキャッシングはコスト効果高いと思いますが、一ヶ月ほどたちますが、使えていない

Amazon Bedrock Model Distilation

https://aws.amazon.com/jp/blogs/news/build-faster-more-cost-efficient-highly-accurate-models-with-amazon-bedrock-model-distillation-preview/

小さいFMでも応答改善が見込まれるものだが、Provisoned throughputが必要なので、コスト効果がどうなるかは考慮必要

Prompt caching、Model Distilationはコスト効果が高そう。モデル蒸留がオンデマンドでも使えるといいが

https://speakerdeck.com/pharma_x_tech/llmahurikesiyonno-fine-tunningtozheng-liu-wohuo-yong-sitagai-shan

Agent

Amazon Bedrock Knowledge Bases now supports custom connectors and ingestion of streaming data

Knowledge BaseのSyncでなく、Knowledege Baseのデータの更新、削除ができる
https://aws.amazon.com/about-aws/whats-new/2024/12/amazon-bedrock-knowledge-bases-connectors-ingestion-data/

Amazon Bedrockのマルチエージェントコラボレーション

https://aws.amazon.com/jp/blogs/news/introducing-multi-agent-collaboration-capability-for-amazon-bedrock/

複数データソースから回答させるAgentから結論を導くようなAgentがつくれてしまう。

https://speakerdeck.com/minorun365/re-inventdefa-biao-sareta-bedrocknoxin-ji-neng-wose-shi-tutemarutiragezientonikuraudoxuan-ding-sasetemitajian?slide=6

Aurora Serverless v2 zero capacity

問い合わせないときはゼロスケールにしておけて、コストメリット高い。zero capacityからのスケールは多少時間がかかるので、リクエスト時のRetryは考慮必要。
Custom Model Importでも、アイドル時はModel Unit zeroになるので、同様リトライ考慮が必要になります。

RAG

ディスク最適化ベクトルエンジンが、Amazon OpenSearch Serviceで利用可能に

検索コストを1/3で行えるメリットあり。メモリとは異なり、レイテンシとか上がるので許容出来るユースケースには選択できる。
https://aws.amazon.com/jp/about-aws/whats-new/2024/11/disk-optimized-vector-engine-amazon-opensearch-service/?nc1=h_ls

Discussion