この夏、Databricks と Apache Iceberg は両方とも、オープン テーブル形式の機能強化を展開しました。データブリックが発表されました
同じ頃、Iceberg はクエリ エンジンとプラットフォームに対する多数の新しいサポートを発表しました。
これらの発表を文脈に沿って見てみましょう。オープン テーブル形式により、データ レイク環境の柔軟性を維持しながら、これまでは従来のデータ ウェアハウスまたはデータベースでしか達成できなかったパフォーマンスとコンプライアンスの標準をデータ レイクで達成できます。
オープン テーブル形式には主に次の 3 つがあります。
異なるフォーマットの選択については多くのことが書かれており、中には次のように主張する人もいます。
こうした最近の発表の前から、オープン テーブル形式はすでに最新のデータ レイク設計に不可欠なものとなっていました。そして逆に、データ レイクは最新のデータ スタックに不可欠なものとなっています。最近の
クラウド ネイティブのデータ レイクとそのコンポーネント、オープン テーブル フォーマットなどのテクノロジーが最新のデータ スタックの中心的な役割を果たしているのは、まったく驚くべきことではありません。これは、老朽化したシステムに「クラウド テクノロジー」というフレーズを叩き込もうとする組織に卸売りされる、従来のモノリシックなレガシー ハードウェアおよびソフトウェアとはまったく対照的です。クラウド ネイティブになることは、API を追加するだけではありません。最新のデータ スタックは、さまざまなデータ処理面に合わせて調整されたモジュール式の特殊なツールのアンサンブルです。適応性を考慮して構築されており、クラウドで生まれ、高いパフォーマンス基準を維持しています。最新のデータ スタックを組織にとって魅力的な選択肢にする機能。スタックのモジュール性により幅広いオプションが提供され、組織が特定のニーズに合わせたオーダーメイドのデータ インフラストラクチャを作成できるようになり、進化し続けるデータ環境での俊敏性が促進されます。
このようにオプションの範囲が継続的に進化しているにもかかわらず、スタックのコンポーネントには次のような特徴があります。
クラウドネイティブ:最新のデータ スタックは、さまざまなクラウド環境にわたってシームレスに拡張できるように設計されており、複数のクラウドとの互換性を確保してベンダー ロックインを防ぎます。
最適化されたパフォーマンス:効率を重視して設計されたスタックには、ソフトウェアファーストのアプローチとパフォーマンスを重視した設計を採用したコンポーネントが組み込まれています。
RESTful API 互換性:スタックは、コンポーネント間の標準化された通信フレームワークを確立します。これにより相互運用性が促進され、マイクロサービスの作成がサポートされます。
細分化されたストレージとコンピューティング:スタックにより、コンピューティング リソースとストレージ容量を独立してスケーリングできます。このアプローチにより、コスト効率が最適化され、特定のニーズに応じて各側面を拡張できるようになり、全体的なパフォーマンスが向上します。
オープン性への取り組み:オープン テーブル形式をサポートするだけでなく、最新のデータ スタックはオープンソース ソリューションの形でオープン性を採用しています。この取り組みにより、独自のサイロが排除され、ベンダー ロックインが軽減され、コラボレーション、イノベーション、およびデータ アクセシビリティの向上が促進されます。オープン性への取り組みにより、さまざまなプラットフォームやツールに対するスタックの適応性が強化され、包括性が確保されます。
データのポータビリティと相互運用性を真に受け入れるということは、どこにいてもデータを作成してアクセスできることを意味します。このアプローチにより柔軟性が向上し、組織はベンダー ロックインやデータ サイロの制約を受けることなく、さまざまなツールの機能を活用できるようになります。目標は、データへの普遍的なアクセスを可能にし、組織内でより俊敏で適応性のあるデータ エコシステムを促進することです。
データのポータビリティを実現するには、オペレーティング モデルとしてのクラウドが特定の場所ではなくクラウド ネイティブ テクノロジの原則に基づいて構築されていることを理解することが重要です。一部の組織
多くの確立された組織はこの理念を積極的に採用しており、ワークロードをクラウドから本国に戻すことを選択し、大幅なコスト削減を実現しています。
Databricks、Apache Iceberg、Hudi によるオープン テーブル フォーマットの最近の進歩は、データ管理における極めて重要な瞬間を示しています。 Delta Lake 3.0 のユニバーサルな互換性と Apache Iceberg のサポートの拡張は、データ インフラストラクチャ企業と現場実装者の両方によるシームレスなデータの移植性と相互運用性への取り組みを示しています。
これらの開発は、オープン テーブル形式がパフォーマンスとコンプライアンスの標準を達成する上で中心的な役割を果たす、最新のデータ スタックの固有のモジュール性と一致しています。この変化は単独ではなく、クラウドのオペレーティング モデルと交差しています。パブリック クラウドの魅力を超えて、プライベート インフラストラクチャ上でクラウド オペレーティング モデルを採用することで、真の効果とコスト削減が生まれます。
オープン テーブル フォーマット、最新のデータ スタック、クラウド オペレーティング モデルの融合は、データ管理における変革の時代を意味します。このアプローチにより、パブリックかプライベートか、オンプレミスかエッジかを問わず、さまざまな環境にわたる適応性が確保されます。データ レイク アーキテクチャの複雑さを解決するために、MinIO チームがいつでもお手伝いいたします。 hello@minio.io または