※編集者注:この記事は主に、パリで開催された2023 Filecoin Unleashed ConferenceでのDavid Aronchick氏の講演に基づいています。 David は Expanso の CEO であり、Bacalhau プロジェクトを立ち上げた Protocol Labs の元データ コンピューティング部門責任者です。この記事は元のコンテンツ作成者の独立した意見を表しており、再公開の許可が与えられています。 *
IDC によると、2025 年までに世界中で保存されるデータの量は 175 ZB を超えるとのことです。これは、1 GB USB フラッシュ ドライブ 175 兆個に相当する膨大な量のデータです。このデータのほとんどは 2020 年から 2025 年の間に生成され、CAGR は 61% と予想されます。
今日の急速に成長するデータスフィアには、次の 2 つの大きな課題があります。
ネットワークの成長の鈍化と規制上の制約が重なった結果、機関データの 68% 近くが保存されたままになっています。このため、データをコンピューティングに移動するのではなく、コンピューティング リソースをデータ ストレージに転送することが特に重要であると、Bacalhau らはコンピューティング オン データ (CoD) プラットフォームで取り組んでいます。これには厳しい。
次の章では、以下について簡単に紹介します。
## 現状
現在、組織がデータ処理の課題に対処する主な方法は 3 つありますが、どれも理想的ではありません。
最も一般的なアプローチは、大規模なデータ処理に集中システムを使用することです。 Adobe Spark、Hadoop、Databricks、Kubernetes、Kafka、Ray などのコンピューティング フレームワークを組み合わせて、集中化された API サーバーに接続されたクラスター化システムのネットワークを形成している組織をよく見かけます。ただし、これらのシステムは、ネットワーク侵害やデータ モビリティに関するその他の規制問題に効果的に対処することはできません。
これにより、データ侵害による組織への数十億ドルの行政罰金や罰金が発生しました。
もう 1 つのアプローチは、開発者が政府機関が必要とする認識と堅牢性を備えたカスタム調整システムを構築することです。このアプローチは新しいものですが、システムの保守と実行を少数の人員に過度に依存するため、失敗のリスクに直面することがよくあります。
### 何もしない
驚くべきことに、ほとんどの場合、機関はデータを何も処理しません。たとえば、都市は毎日監視ビデオから大量のデータを収集できますが、コストが高いため、このデータはローカル マシンでのみ表示でき、アーカイブしたり処理したりすることはできません。
データ処理の問題点に対する主な解決策は 2 つあります。
ソリューション 1: オープンソース データ コンピューティング プラットフォーム
開発者は、前述のカスタム調整システムの代わりに、オープンソースの分散データ プラットフォームを計算に使用できます。このプラットフォームはオープンソースで拡張可能なため、政府機関は必要なコンポーネントを構築するだけで済みます。このセットアップは、マルチクラウド、マルチコンピューティング、非データセンター アプリケーションのシナリオに対応し、複雑な規制環境に対処できます。重要なのは、オープン ソース コミュニティへのアクセスは、システム メンテナンスのために 1 人以上の開発者に依存しなくなり、障害の可能性が減少することです。
Bacalhau や Lilypad などの高度なコンピューティング プロジェクトの助けを借りて、開発者はさらに一歩進んで、ソリューション 1 で述べたオープンソース データ プラットフォームだけでなく、Filecoin ネットワークのような真の分散型データ プロトコル上でもシステムを構築できます。
ソリューション 2: 分散データ コンピューティング プロトコル
これは、教育機関がユーザーの問題をより詳細に調整および説明する方法を理解する分散プロトコルを使用できることを意味し、データが生成および保存される場所に近いコンピューティング領域のロックを解除できます。データセンターから分散プロトコルへのこの変換は、データ サイエンティストの経験にわずかな変更を加えるだけで理想的に実行できます。
Filecoin ネットワークなどの分散プロトコルに導入することで、ユーザーが同じネットワーク上の異なる地域に分散された数百 (または数千) のマシンにアクセスし、他のマシンと同じプロトコル ルールに従うことができる、というのが私たちのビジョンです。これにより、データ サイエンティストはネットワークをリクエストできるため、基本的に選択肢が広がります。
Juan Triangle | デコード略語: FHE (完全準同型暗号化)、MPC (マルチパーティ計算)、TEE (信頼できる実行環境)、ZKP (ゼロ知識証明)
選択の最大化の概念といえば、「フアンの三角形」について言及する必要があります。この用語は、(将来の) 異なるユースケースに異なる分散コンピューティング ネットワークが使用される理由を説明するために、Protocol Labs の創設者である Juan Benet によって造られました。サポートされると作成されます。
Juan の Triangle は、コンピューティング ネットワークではプライバシー、検証可能性、パフォーマンスの間でトレードオフが必要になることが多く、従来の「フリーサイズ」アプローチをすべてのユースケースに適用するのは難しいと提案しています。その代わりに、分散プロトコルのモジュール式の性質により、さまざまな分散ネットワーク (またはサブネットワーク) が、プライバシー、検証可能性、パフォーマンスなど、さまざまなユーザーのニーズを満たすことができます。最終的には、何が重要だと考えるかに基づいて最適化します。それまでに、多くのパーティ サービス プロバイダー (三角形内のボックスで示されている) がこれらのギャップを埋め、分散コンピューティングを現実のものにするでしょう。
要約すると、 データ処理は、すぐに使えるソリューションを必要とする複雑な問題です。オープンソース データ コンピューティングを活用して従来の集中型システムを置き換えることは、良い第一歩です。最終的には、Filecoin ネットワークなどの分散プロトコルにコンピューティング プラットフォームを展開することで、ユーザーの個別のニーズに応じてコンピューティング リソースを自由に構成できるようになります。これは、ビッグ データと人工知能の時代において非常に重要です。
22k 人気度
21k 人気度
26k 人気度
51k 人気度
33k 人気度
分散データ コンピューティングの重要性とビジネスの可能性についての詳細な考察
IDC によると、2025 年までに世界中で保存されるデータの量は 175 ZB を超えるとのことです。これは、1 GB USB フラッシュ ドライブ 175 兆個に相当する膨大な量のデータです。このデータのほとんどは 2020 年から 2025 年の間に生成され、CAGR は 61% と予想されます。
今日の急速に成長するデータスフィアには、次の 2 つの大きな課題があります。
ネットワークの成長の鈍化と規制上の制約が重なった結果、機関データの 68% 近くが保存されたままになっています。このため、データをコンピューティングに移動するのではなく、コンピューティング リソースをデータ ストレージに転送することが特に重要であると、Bacalhau らはコンピューティング オン データ (CoD) プラットフォームで取り組んでいます。これには厳しい。
次の章では、以下について簡単に紹介します。
## 現状
現在、組織がデータ処理の課題に対処する主な方法は 3 つありますが、どれも理想的ではありません。
集中システムの使用
最も一般的なアプローチは、大規模なデータ処理に集中システムを使用することです。 Adobe Spark、Hadoop、Databricks、Kubernetes、Kafka、Ray などのコンピューティング フレームワークを組み合わせて、集中化された API サーバーに接続されたクラスター化システムのネットワークを形成している組織をよく見かけます。ただし、これらのシステムは、ネットワーク侵害やデータ モビリティに関するその他の規制問題に効果的に対処することはできません。
これにより、データ侵害による組織への数十億ドルの行政罰金や罰金が発生しました。
自分で構築する
もう 1 つのアプローチは、開発者が政府機関が必要とする認識と堅牢性を備えたカスタム調整システムを構築することです。このアプローチは新しいものですが、システムの保守と実行を少数の人員に過度に依存するため、失敗のリスクに直面することがよくあります。
### 何もしない
驚くべきことに、ほとんどの場合、機関はデータを何も処理しません。たとえば、都市は毎日監視ビデオから大量のデータを収集できますが、コストが高いため、このデータはローカル マシンでのみ表示でき、アーカイブしたり処理したりすることはできません。
真の分散コンピューティングを構築する
データ処理の問題点に対する主な解決策は 2 つあります。
ソリューション 1: オープンソースのデータ コンピューティング プラットフォーム上に構築
ソリューション 1: オープンソース データ コンピューティング プラットフォーム
開発者は、前述のカスタム調整システムの代わりに、オープンソースの分散データ プラットフォームを計算に使用できます。このプラットフォームはオープンソースで拡張可能なため、政府機関は必要なコンポーネントを構築するだけで済みます。このセットアップは、マルチクラウド、マルチコンピューティング、非データセンター アプリケーションのシナリオに対応し、複雑な規制環境に対処できます。重要なのは、オープン ソース コミュニティへのアクセスは、システム メンテナンスのために 1 人以上の開発者に依存しなくなり、障害の可能性が減少することです。
ソリューション 2: 分散データ プロトコルに基づいて構築する
Bacalhau や Lilypad などの高度なコンピューティング プロジェクトの助けを借りて、開発者はさらに一歩進んで、ソリューション 1 で述べたオープンソース データ プラットフォームだけでなく、Filecoin ネットワークのような真の分散型データ プロトコル上でもシステムを構築できます。
ソリューション 2: 分散データ コンピューティング プロトコル
これは、教育機関がユーザーの問題をより詳細に調整および説明する方法を理解する分散プロトコルを使用できることを意味し、データが生成および保存される場所に近いコンピューティング領域のロックを解除できます。データセンターから分散プロトコルへのこの変換は、データ サイエンティストの経験にわずかな変更を加えるだけで理想的に実行できます。
分散とは選択の最大化を意味します
Filecoin ネットワークなどの分散プロトコルに導入することで、ユーザーが同じネットワーク上の異なる地域に分散された数百 (または数千) のマシンにアクセスし、他のマシンと同じプロトコル ルールに従うことができる、というのが私たちのビジョンです。これにより、データ サイエンティストはネットワークをリクエストできるため、基本的に選択肢が広がります。
Juan Triangle | デコード略語: FHE (完全準同型暗号化)、MPC (マルチパーティ計算)、TEE (信頼できる実行環境)、ZKP (ゼロ知識証明)
選択の最大化の概念といえば、「フアンの三角形」について言及する必要があります。この用語は、(将来の) 異なるユースケースに異なる分散コンピューティング ネットワークが使用される理由を説明するために、Protocol Labs の創設者である Juan Benet によって造られました。サポートされると作成されます。
Juan の Triangle は、コンピューティング ネットワークではプライバシー、検証可能性、パフォーマンスの間でトレードオフが必要になることが多く、従来の「フリーサイズ」アプローチをすべてのユースケースに適用するのは難しいと提案しています。その代わりに、分散プロトコルのモジュール式の性質により、さまざまな分散ネットワーク (またはサブネットワーク) が、プライバシー、検証可能性、パフォーマンスなど、さまざまなユーザーのニーズを満たすことができます。最終的には、何が重要だと考えるかに基づいて最適化します。それまでに、多くのパーティ サービス プロバイダー (三角形内のボックスで示されている) がこれらのギャップを埋め、分散コンピューティングを現実のものにするでしょう。
要約すると、 データ処理は、すぐに使えるソリューションを必要とする複雑な問題です。オープンソース データ コンピューティングを活用して従来の集中型システムを置き換えることは、良い第一歩です。最終的には、Filecoin ネットワークなどの分散プロトコルにコンピューティング プラットフォームを展開することで、ユーザーの個別のニーズに応じてコンピューティング リソースを自由に構成できるようになります。これは、ビッグ データと人工知能の時代において非常に重要です。