提供PB级数据仓库和湖仓一体平台,是AI训练数据管理和特征工程的核心基础设施,Snowflake和Databricks是双雄。

上游依赖

云存储、计算集群

服务下游

AI训练数据管道、企业数据分析

赛道受益 AI 逻辑

AI模型的质量很大程度上取决于训练数据的质量——'Garbage in, garbage out'。数据平台负责数据的收集、存储、清洗、转换和服务,是AI从数据到模型的关键管道。 因果链:企业要做AI → 首先需要整理自身数据 → 数据仓库/数据湖/Lakehouse需求增长 → Snowflake、Databricks、BigQuery增长 → 数据工程和特征工程成为AI项目的瓶颈和预算大头 Databricks(Data+AI公司)凭借开源Spark生态和Lakehouse架构在AI数据平台市场迅速崛起,2024年ARR超$20亿。Snowflake则从数据仓库扩展到AI/ML数据服务。

全球数据平台市场

~$500亿

2024年,含数据仓库/湖

Databricks ARR

$20亿+

2024年,增速50%+

Snowflake收入

$35亿

FY2025,产品收入

市场格局与竞争态势

数据平台市场分为几个流派:云数据仓库(Snowflake、Google BigQuery、AWS Redshift)、数据湖/Lakehouse(Databricks、Delta Lake)、传统数据平台(Oracle、Teradata)。 Databricks和Snowflake是这个赛道最核心的两家公司——前者偏AI和数据工程,后者偏数据分析和BI。两家正在相互侵入对方领地。BigQuery和Redshift作为Hyperscaler的原生产品份额也很大。 格局特征:数据平台是AI基础设施中'软件层'的核心。企业AI项目中60-70%的时间和预算花在数据准备上,这直接决定了数据平台的价值。

主要厂商市场份额

Databricks(未上市)
~18%
Snowflake (SNOW)
~15%
AWS Redshift
~12%
Google BigQuery
~10%
Azure Synapse
~8%
其他
~37%

关键变量与不确定性

核心驱动因素

企业AI项目推动数据平台投资Lakehouse架构统一数据湖和仓库实时数据处理需求增长数据治理和合规要求推动平台化

主要不确定性

Databricks vs Snowflake的竞争走向Hyperscaler原生产品的替代压力开源方案侵蚀商业产品份额数据平台投资ROI的验证

数据平台是AI基础设施中确定性较高的软件赛道——AI越发展,数据管理的需求越大。Snowflake上市后增速放缓但仍保持30%+增长,估值从高位回落后更合理。Databricks是目前最炙手可热的AI独角兽之一,IPO时间是市场关注焦点。

代表性公司解读

所在产业链位置

数据中心硬件 5条
云计算平台 3条
软件与安全 3条
上游 下游
预设链路:
双指放大查看产业链地图

产业链联动

上游依赖云计算基础设施(AWS、Azure、GCP)——数据平台运行在云上。与企业存储赛道也有关联——数据平台管理的数据最终存储在存储系统中。 下游服务所有需要做AI/分析的企业客户。与训练平台、数据标注等模型层赛道关系紧密——数据平台提供的数据质量直接影响模型训练效果。

相关赛道

下一步研究建议