2025 年 5 月发布:Dataproc Serverless 现已成为 Google Cloud Serverless for Apache Spark

Google Cloud Serverless for Apache Spark

Apache Spark 从开发到生产的新方式

按需 Spark:快速启动,无需运维,提升查询性能与 Gemini 驱动的工作效率。将 Spark 工作负载的 TCO 降低多达 60%

Apache Spark 是 Apache Software Foundation 的商标。


功能

按需 Spark:专注于代码,而非集群

消除集群管理的复杂性,避免为闲置和未充分利用的资源付费。Google Cloud Serverless for Apache Spark 可为您的交互式、批量和 AI 工作负载提供快速的虚拟机启动和动态自动扩缩。将时间用于构建功能,而非管理基础架构。虚拟机启动和关闭期间不会产生费用。

使用 Lightning Engine 提升性能

体验行业领先的价格性能比。Google Cloud Serverless for Apache Spark 由我们的新一代原生查询引擎 Lightning Engine 提供支持(目前为预览版)。借助先进的矢量化执行、内置的智能缓存和优化的存储 I/O,它可显著提升 Spark 查询和数据处理性能,性能比开源 Apache Spark 快超过 4.3 倍**,帮助您更快获得洞见并降低成本。

** 这些查询源自 TPC-DS 标准TPC-H 标准,因此无法与已发布的 TPC-DS 标准TPC-H 标准结果进行比较,因为这些运行不���合 TPC-DS 标准TPC-H 标准规范的所有要求。

企业级安全和配置

放心运行您的生产环境 Spark 工作负载。Google Cloud Serverless for Apache Spark 可优化资源、提供作业隔离,并支持 Google Cloud 的企业级安全功能(包括 VPC-SC、CMEK、个人身份验证和自定义组织政策)。它通过安全子网、默认加密静态数据和传输中的数据、禁用直接虚拟机或 root 访问等功能,确保安全的执行环境,最大限度减轻您的运维安全负担。虽然 Spark 是为了实现自动化而构建的,但专业用户仍可完全访问 Spark 配置,以便进行精细控制。

利用 Gemini 在每个步骤提高工作效率

将生成式 AI 融入到 Spark 开发生命周期中。借助 Gemini 在笔记本中生成基于数据智能上下文的上下文感知型 PySpark 代码,大幅提升工作效率。通过 Gemini Cloud Assist Investigate 获取 AI 辅助的故障排查建议,以快速解决问题、获得更深入的运营数据洞见并优化性能。

轻松实现分布式 AI/机器学习

无缝运行分布式训练或批量推理工作负载。Google Cloud Serverless for Apache Spark 内置了对 GPU 加速的支持,并附带了 XGBoost、PyTorch 和 Transformers 等热门机器学习库的预封装版本。这些映像已通过 Google 认证,��此可显著缩短 AI/机器学习环境的启动时间并提升可靠性。

开放、灵活且具备互操作性

保持完全的灵活性。Google Cloud Serverless for Apache Spark 完全兼容 OSS,因此您可以无需修改即可使用现有的 Spark 代码和库。使用您偏好的 IDE(BigQuery StudioVertex AI Workbench、Jupyter、VSCode)和偏好的语言(Python、Java、Scala、R)进行开发,并使用 Apache Airflow/Cloud ComposerBigQuery 流水线等工具进行编排。处理所有数据格式,例如 Google 原生格式和 Apache Iceberg 等开源格式。

统一的 BigQuery 体验

直接在 BigQuery 中体验 Apache Spark 的强大功能。在统一的 Colab Enterprise 笔记本中编写并运行 PySpark 代码和 SQL,利用 BigLake Metastore 的通用元数据、Dataplex 通用目���的共享安全性和一致的治理。

工作方式

从构思到生产,轻松启用 Spark

常见用途

无服务器流水线

闪电般快速的无服务器 ETL/ELT

快速从各种来源提取、转换和加载海量数据集到 BigQuery 或 Google Cloud Storage。借助 Lightning Engine 的卓越性能和零运营负担,简化数据流水线,并确保有最新数据可供分析。

闪电般快速的无服务器 ETL/ELT

快速从各种来源提取、转换和加载海量数据集到 BigQuery 或 Google Cloud Storage。借助 Lightning Engine 的卓越性能和零运营负担,简化数据流水线,并确保有最新数据可供分析。

交互式数据科学与分析

交互式分析和快速原型设计

借助灵活高性能的无服务器 Spark 环境,为数据科学家和分析师赋能。无论您是执行临时数据探索、快速原型设计,还是构建复杂的机器学习模型,Google Cloud Serverless for Apache Spark 都能提供您所需的速度和工具。在 BigQuery Studio 中开发 PySpark 和 SQL 代码,享受统一体验,或通过 Jupyter 笔记本和安装了 Google Cloud 扩展程序的 VS Code 等首选工具进行连接。借助 Gemini 进行代码辅助与问题排查,使用 Lightning Engine 加速查询,并通过集成 Vertex AI 实现 MLOps。从快速数据发现到借助 GPU 和预构建库训练复杂模型,全程加速您的数据科学生命周期。

交互式分析和快速原型设计

借助灵活高性能的无服务器 Spark 环境,为数据科学家和分析师赋能。无论您是执行临时数据探索、快速原型设计,还是构建复杂的机器学习模型,Google Cloud Serverless for Apache Spark 都能提供您所需的速度和工具。在 BigQuery Studio 中开发 PySpark 和 SQL 代码,享受统一体验,或通过 Jupyter 笔记本和安装了 Google Cloud 扩展程序的 VS Code 等首选工具进行连接。借助 Gemini 进行代码辅助与问题排查,使用 Lightning Engine 加速查询,并通过集成 Vertex AI 实现 MLOps。从快速数据发现到借助 GPU 和预构建库训练复杂模型,全程加速您的数据科学生命周期。

生成解决方案
您想解决什么问题?
What you'll get:
分步指南
参考架构
可用的预构建解决方案
此服务是使用 Vertex AI 构建的。您必须年满 18 周岁才能使用。请勿输入敏感信息、机密信息或个人信息。

价格

以价值为导向的透明定价Google Cloud Serverless Spark 的价格基于计算 (DCU)、GPU 和 shuffle 存储空间的每秒使用量。
服务和用量订阅类型 价格 (USD)

数据计算单元 (DCU)

标准

起价

$0.06

(每小时)

高级

起价

$0.089

(每小时)

Shuffle 存储

标准

起价

$0.04

每月每 GB

高级

起价

$0.1

每月每 GB

加速器价格

a100 40 GB

起价

$3.52069

(每小时)

a100 80 GB

起价

$4.713696

(每小时)

L4

起价

$0.672048

(每小时)

以价值为导向的透明定价

Google Cloud Serverless Spark 的价格基于计算 (DCU)、GPU 和 shuffle 存储空间的每秒使用量。

数据计算单元 (DCU)

订阅类型

标准

价格 (USD)

Starting at

$0.06

(每小时)

高级

订阅类型

Starting at

$0.089

(每小时)

Shuffle 存储

订阅类型

标准

价格 (USD)

Starting at

$0.04

每月每 GB

高级

订阅类型

Starting at

$0.1

每月每 GB

加速器价格

订阅类型

a100 40 GB

价格 (USD)

Starting at

$3.52069

(每小时)

a100 80 GB

订阅类型

Starting at

$4.713696

(每小时)

L4

订阅类型

Starting at

$0.672048

(每小时)

价格计算器

按区域计算您的每月费用。

定制报价

请与我们的销售团队联系,获取为贵组织量身定制的报价。

立即开始使用

入门教程

有一个大型项目?

产品概览

将 BigQuery 连接器与 Google Cloud Serverless for Apache Spark 结合使用

将 GPU 与 Google Cloud Serverless for Apache Spark 结合使用

Google Cloud