Skip to main content
Version: 0.8.0

Azure 文件系统

在本页中,我们解释如何在 Microsoft Azure 上使用 Hudi 。

声明

本页面由 Hudi 社区维护。 如果信息不准确,或者你有信息要补充,请尽管创建 JIRA ticket。 对此贡献高度赞赏。

支持的存储系统

Hudi 支持两种存储系统。

  • Azure Blob 存储
  • Azure Data Lake Gen 2

经过验证的 Spark 与存储系统的组合

Azure Data Lake Storage Gen 2 上的 HDInsight Spark 2.4

This combination works out of the box. No extra config needed. 这种组合开箱即用,不需要额外的配置。

Azure Data Lake Storage Gen 2 上的 Databricks Spark 2.4

  • 将 Hudi jar 包导入到 databricks 工作区 。

  • 将文件系统挂载到 dbutils 。

    dbutils.fs.mount(
    source = "abfss://xxx@xxx.dfs.core.windows.net",
    mountPoint = "/mountpoint",
    extraConfigs = configs)
  • 当写入 Hudi 数据集时,使用 abfss URL

    inputDF.write
    .format("org.apache.hudi")
    .options(opts)
    .mode(SaveMode.Append)
    .save("abfss://<<storage-account>>.dfs.core.windows.net/hudi-tables/customer")
  • 当读取 Hudi 数据集时,使用挂载点

    spark.read
    .format("org.apache.hudi")
    .load("/mountpoint/hudi-tables/customer")