【今日のIT関連ニュース】「ANA、データ基盤を刷新しIceberg採用──データアクセス性能が最大3.9倍向上(2025年7月18日)」
ANA(全日本空輸)は、自社のデータ活用基盤「BlueLake」において、ファイル形式をApache Icebergへ移行することで、最大3.9倍の性能向上を実現しました。本記事では、その背景、導入の狙い、技術選定のポイント、得られた効果などを紹介します。
📚参考:ANA、データ基盤を刷新してIcebergを採用、検証ではデータアクセス性能が最大3.9倍向上(IT Leaders)
はじめに
DXが加速する中、データ活用の基盤整備は企業競争力の鍵を握ります。ANAは、部門ごとにサイロ化していたデータを統合し、SnowflakeとApache Icebergを組み合わせたアーキテクチャを採用することで、柔軟性・拡張性・性能を兼ね備えた環境を構築しました。
本記事では、以下のような観点からこの事例を解説します。
ANAのデータ基盤「BlueLake」とは?
ANAは、2022年に新たなデータ活用基盤「BlueLake」を構築しました。主な特徴は以下の通りです。
- 複数部門のデータを一元化(Single Source of Truthの実現)
- AWS S3上にParquet形式でファイル格納
- SnowflakeによるDWH運用
- ファイルベースの柔軟性を活かし、他システムとの連携も想定
Icebergとは何か?
Apache Icebergは、クラウドネイティブなテーブル形式の一つで、大規模データ分析に最適化された形式です。主な特徴は以下の通りです。
- メタデータの管理による高速なクエリ実行
- スキーマのバージョン管理・進化に対応
- パーティショニングの柔軟性と最適化
- 複数の分析エンジン(Spark, Trino, Snowflakeなど)との互換性
Parquetなどの単純なファイル形式と異なり、データ管理・クエリ処理の効率性が大きく向上します。
なぜIcebergを採用したのか?
ANAがIcebergを採用した理由は以下の通りです。
- Parquet形式では処理性能に限界があった(匿名加工・削除処理などで非効率)
- Icebergのメタデータ管理により、Snowflakeからのクエリを高速化可能
- コンピュートリソースを抑えつつ、処理パフォーマンスを改善できる
- 今後の拡張性や他基盤との相互運用性を確保できる
Iceberg導入による効果
PoC(概念実証)で以下のような成果が得られました。
- ETL処理:最大3.9倍の高速化
- 通常クエリ処理:1.6倍の性能向上
- Icebergを通じてSnowflakeから直接アクセス可能
- 内部テーブルと同様の使い勝手が得られた
今後の展望
ANAでは、2025年7月末をめどにV4の本格稼働を予定しています。Iceberg導入により、以下のような展開が期待されます。
- データガバナンスの強化
- 部門横断の分析・活用の拡大
- AI/ML基盤との連携による高度な分析基盤の構築
- 他クラウド基盤・分析エンジンへの対応
まとめ
ANAの事例は、単なるツールの導入にとどまらず、「段階的にデータ基盤を進化させるアプローチ」の好例と言えます。
- Icebergを活用することで、ファイル形式の柔軟性を保ちつつ、性能も確保
- Snowflakeとの親和性により、分析業務の効率も向上
- 今後の拡張性やAI活用への布石とも言える
データ活用を進める企業にとって、非常に参考になる事例です。
所感
今回の記事を通して、データ活用基盤の設計における「段階的な進化」の重要性をあらためて実感しました。特に印象的だったのは、ANAが一気に大きく変えるのではなく、Parquet → Snowflake → Icebergと、ステップを踏みながら最適な構成へとアップデートしていった点です。
Apache Icebergは、まだ国内では導入事例が少ない印象がありますが、クラウドDWHやデータレイクとの相性が非常に良く、今後の主流となっていく可能性を感じました。特にSnowflakeと組み合わせることで、パフォーマンスと柔軟性のバランスを高次元で実現できるというのは大きなメリットです。
企業のDX推進において、「ただデータを集める」だけではなく、「どのように使いやすく整えるか」が問われる中で、本事例は非常に学びの多い内容でした。今後、自分が関わるシステム設計や分析基盤の構築でも、今回のような考え方を意識していきたいと思います。
用語解説
DX(デジタル・トランスフォーメーション)
企業がデジタル技術を活用して、業務の効率化や新たな価値創出を図る変革のこと。つまり、会社がパソコンやインターネットなどのデジタルの力を使って、仕事のやり方やサービスを良くしていくことです。たとえば、紙でやっていた作業をコンピュータに変えることなどが含まれます。単なるIT導入にとどまらず、ビジネスモデルや企業文化の変革を伴う。
データレイク
構造化データ(表形式など)から非構造化データ(画像、動画、ログなど)まで、さまざまな形式のデータをそのまま保存できる大容量ストレージのこと。つまり、いろんな種類のデータをまとめて入れておく「大きなデータの池(いけ)」のような場所です。数字だけでなく、写真や動画、文章などもそのまま保存できます。分析・活用の前段階の「データの集積場所」として活用される。
Apache Iceberg(アイスバーグ)
オープンソースのテーブルフォーマット。クラウド環境に適した設計で、大量データを効率よく管理・検索・分析できるようにする。つまり、たくさんのデータを、見やすく・使いやすくするための「整理棚(せいりだな)」みたいな仕組み。これを使うと、データを速く探せたり、管理が簡単になります。既存のファイル形式(Parquetなど)にメタデータ層を追加し、性能やスキーマ進化への対応を可能にする。
Snowflake(スノーフレーク)
クラウドベースのデータウェアハウス(DWH)。つまり、クラウド(インターネット上のコンピュータ)で使える「データの図書館」のようなサービスです。従来型のDWHよりも拡張性・柔軟性が高く、ユーザーごとにリソースを分離しても高速処理が可能。AWSやAzure、GCP上で利用可能。
Parquet(パーケイ)
Apacheが提供する列指向のファイルフォーマット。つまり、データをコンパクトにしまっておける「整理されたノート」みたいなファイルの形(形式)です。ビッグデータ処理に適しており、ストレージ圧縮や分析パフォーマンスに優れる。見たいところだけすぐに読めるので、たくさんのデータを早く使えます。
ETL(イーティーエル)
データを「抽出(Extract)」「変換(Transform)」「格納(Load)」する一連の処理。
つまり、データを使いやすくする3つの作業のことです:
- E(抽出):データを集める
- T(変換):使いやすい形に変える
-
L(格納):しまっておく
分析用のデータを整えるための前処理として使われる。
メタデータ
「データに関するデータ」。たとえば、ファイルの作成日やサイズ、列の型情報、スキーマの履歴などが該当する。Icebergではこのメタデータを活用して高速なクエリ処理を実現している。もっと簡単に説明すると、本そのものがデータなら、「タイトル」や「作者」などの情報がメタデータです。
クエリ
データベースに対する「問いかけ」、お願いすること。例えば、「この商品がいつ売れたか教えて」といった指示を、SQLなどの言語で書いたもの。
スキーマ進化
データの構造(スキーマ)を変更しても、過去データと整合性を保ちながら利用し続けることができる仕組み。簡単に説明すると、データの「設計図」をあとから変えても、古いデータがちゃんと使えるようにするしくみです。例えば、表に新しい列を追加しても問題が起きないようにすることです。
ガバナンス(データガバナンス)
企業がデータの品質・安全性・一貫性を確保するための管理体制やルールのこと。簡単に説明すると、データを正しく安全に使うための「ルール作り」や「見張り」のことです。誰がどのデータにアクセスできるか、変更履歴をどう管理するか等が含まれる。
Discussion