数据平台
提供PB级数据仓库和湖仓一体平台,是AI训练数据管理和特征工程的核心基础设施,Snowflake和Databricks是双雄。
上游依赖
云存储、计算集群
服务下游
AI训练数据管道、企业数据分析
赛道受益 AI 逻辑
AI模型的质量很大程度上取决于训练数据的质量——'Garbage in, garbage out'。数据平台负责数据的收集、存储、清洗、转换和服务,是AI从数据到模型的关键管道。 因果链:企业要做AI → 首先需要整理自身数据 → 数据仓库/数据湖/Lakehouse需求增长 → Snowflake、Databricks、BigQuery增长 → 数据工程和特征工程成为AI项目的瓶颈和预算大头 Databricks(Data+AI公司)凭借开源Spark生态和Lakehouse架构在AI数据平台市场迅速崛起,2024年ARR超$20亿。Snowflake则从数据仓库扩展到AI/ML数据服务。
全球数据平台市场
~$500亿
2024年,含数据仓库/湖
Databricks ARR
$20亿+
2024年,增速50%+
Snowflake收入
$35亿
FY2025,产品收入
市场格局与竞争态势
数据平台市场分为几个流派:云数据仓库(Snowflake、Google BigQuery、AWS Redshift)、数据湖/Lakehouse(Databricks、Delta Lake)、传统数据平台(Oracle、Teradata)。 Databricks和Snowflake是这个赛道最核心的两家公司——前者偏AI和数据工程,后者偏数据分析和BI。两家正在相互侵入对方领地。BigQuery和Redshift作为Hyperscaler的原生产品份额也很大。 格局特征:数据平台是AI基础设施中'软件层'的核心。企业AI项目中60-70%的时间和预算花在数据准备上,这直接决定了数据平台的价值。
主要厂商市场份额
关键变量与不确定性
核心驱动因素
主要不确定性
数据平台是AI基础设施中确定性较高的软件赛道——AI越发展,数据管理的需求越大。Snowflake上市后增速放缓但仍保持30%+增长,估值从高位回落后更合理。Databricks是目前最炙手可热的AI独角兽之一,IPO时间是市场关注焦点。
代表性公司解读
本赛道其他公司(3个)
所在产业链位置
产业链联动
上游依赖云计算基础设施(AWS、Azure、GCP)——数据平台运行在云上。与企业存储赛道也有关联——数据平台管理的数据最终存储在存储系统中。 下游服务所有需要做AI/分析的企业客户。与训练平台、数据标注等模型层赛道关系紧密——数据平台提供的数据质量直接影响模型训练效果。
相关赛道
下一步研究建议
超大规模云
AWS、Azure、谷歌云三巨头提供一站式算力、存储、网络云服务,是AI应用最主要的运行平台,正投入数千亿美元扩建AI数据中心。
GPU云
专门出租高密度GPU算力,服务大模型训练和推理需求,是英伟达H100/H200算力最直接的二级市场。CoreWeave是代表性公司。
云原生运维
将AI推理能力下沉到距用户最近的边缘节点,大幅降低延迟和带宽成本,Cloudflare将自己定位为AI时代的边缘平台。
基础设施安全
保护AI平台、模型端点和训练数据免受网络攻击,随AI部署规模快速扩大,安全需求持续增长。
数据中心
提供机柜托管和数据中心地产,从AI基建狂潮中赚取稳定的租金收入,Equinix和Digital Realty是北美最大的REIT。
AI服务器
组装搭载GPU和高速网络的AI服务器,超微电脑(SMCI)以快速定制能力在此赛道领先,戴尔和HPE是传统大厂。