CREATE TABLE [USING]

项目
12/02/2024

适用于：勾选“是” Databricks SQL Databricks Runtime

可以使用数据源定义托管表或外部表。

语法

{ { [CREATE OR] REPLACE TABLE | CREATE [EXTERNAL] TABLE [ IF NOT EXISTS ] }
  table_name
  [ table_specification ]
  [ USING data_source ]
  [ table_clauses ]
  [ AS query ] }

table_specification
  ( { column_identifier column_type [ column_properties ] } [, ...]
    [ , table_constraint ] [...] )

column_properties
  { NOT NULL |
    GENERATED ALWAYS AS ( expr ) |
    GENERATED { ALWAYS | BY DEFAULT } AS IDENTITY [ ( [ START WITH start ] [ INCREMENT BY step ] ) ] |
    DEFAULT default_expression |
    COMMENT column_comment |
    column_constraint |
    MASK clause } [ ... ]

table_clauses
  { OPTIONS clause |
    PARTITIONED BY clause |
    CLUSTER BY clause |
    clustered_by_clause |
    LOCATION path [ WITH ( CREDENTIAL credential_name ) ] |
    COMMENT table_comment |
    TBLPROPERTIES clause |
    WITH { ROW FILTER clause } } [...]

clustered_by_clause
  { CLUSTERED BY ( cluster_column [, ...] )
    [ SORTED BY ( { sort_column [ ASC | DESC ] } [, ...] ) ]
    INTO num_buckets BUCKETS }

parameters

REPLACE

如果指定了该参数，则会替换已存在的表及其内容。只有 Delta Lake 表支持此子句。

REPLACE 保留表历史记录。

注意

Azure Databricks 强烈建议使用 REPLACE，而不是删除再重新创建 Delta Lake 表。
EXTERNAL

如果已指定，则会创建一个外部表。创建外部表时，还必须提供 LOCATION 子句。删除外部表时，不会删除位于 LOCATION 处的文件。
IF NOT EXISTS

如果指定了该参数，并且已存在名称相同的表，则会忽略该语句。

IF NOT EXISTS 无法与 REPLACE 共存，这意味着不允许使用 CREATE OR REPLACE TABLE IF NOT EXISTS。
table_name

要创建的表的名称。名称不得包含时态规范或选项规范。如果未限定该名称，则会在当前架构中创建该表。

hive_metastore 中创建的表只能包含字母数字 ASCII 字符和下划线 (INVALID_SCHEMA_OR_RELATION_NAME)。
table_specification

此可选子句定义列的列表、列的类型、属性、说明和列约束。

如果未在表架构中定义列，则必须指定 AS query 或 LOCATION。
- column_identifier
  
  列的唯一名称。
  
  没有列映射属性 ('delta.columnMapping.mode' = 'name') 的 Delta Lake 表的列标识符不得包含空格或以下字符：, ; { } ( ) \n \t =。
  
  AVRO 表的列标识符必须以下划线 (_) 或 Unicode 字母（包括非 ASCII 字母）开头，后跟 Unicode 字母、数字和下划线的组合。
- column_type
  
  指定列的数据类型。并非所有数据源都支持 Azure Databricks 支持的所有数据类型。
- NOT NULL
  
  如果指定了该参数，则列不会接受 NULL 值。只有 Delta Lake 表支持此子句。
- GENERATED ALWAYS AS ( expr )
  
  指定此子句后，此列的值取决于 expr。
  
  expr 可能包含文本、表中的列标识符以及内置的确定性 SQL 函数或运算符，但以下内容除外：
  - 聚合函数
  - 分析窗口函数
  - 排名开窗函数
  - 表值生成器函数
  此外，expr 不能包含任何expr。
- GENERATED { ALWAYS | BY DEFAULT } AS IDENTITY [ ( [ START WITH start ] [ INCREMENT BY step ] ) ]
  
  适用于： Databricks SQL Databricks Runtime 10.4 LTS 及更高版本
  
  定义标识列。如果你写入表但没有为标识列提供值，它将自动分配一个唯一且统计上递增的值（如果 step 为负数则递减）。只有 Delta Lake 表支持此子句。此子句只能用于具有 BIGINT 数据类型的列。
  
  自动分配的值以 start 开头并以 step 为增量。分配的值是唯一的，但不保证是连续的。这两个参数都是可选的，默认值为 1。 step 不能为 0。
  
  如果自动分配的值超出标识列类型的范围，则查询将失败。
  
  使用 ALWAYS 时，不能为标识列提供自己的值。
  
  不支持以下操作：
  - PARTITIONED BY 是标识列
  - UPDATE 是标识列
  注意
  
  在 Delta 表上声明标识列会禁用并发事务。仅在不需要对目标表进行并发写入的用例中使用标识列。
- DEFAULT default_expression
  
  适用于： Databricks SQL Databricks Runtime 11.3 LTS 及更高版本
  
  为列定义一个 DEFAULT 值，当未指定该列时，将在 INSERT、UPDATE 和 MERGE ... INSERT 上使用该值。
  
  如果未指定默认值，则 DEFAULT NULL 应用于可为空的列。
  
  default_expression 可以由字面量和内置 SQL 函数或运算符组成，但以下情况除外：
  - 聚合函数
  - 分析窗口函数
  - 排名开窗函数
  - 表值生成器函数
  此外，default_expression 不能包含任何default_expression。
  
  CSV、JSON、PARQUET 和 ORC 源支持 DEFAULT。
- COMMENT column_comment
  
  用于描述列的字符串字面量。
- column_constraint
  
  向 Delta Lake 表中的列添加主键或外键约束。
  
  hive_metastore 目录中的表不支持约束。
  
  若要向 Delta Lake 表添加 CHECK 约束，请使用 ALTER TABLE。
- MASK 子句
  
  适用于： Databricks SQL Databricks Runtime 12.2 LTS 及更高版本仅 Unity Catalog
  
  重要
  
  此功能目前以公共预览版提供。
  
  添加列掩码函数以对敏感数据进行匿名化处理。该列的所有后续查询将会收到对该列计算该函数（而不是该列的原始值）的结果。这对于细粒度的访问控制目的非常有用，在这种情况下，该函数可以检查调用用户的身份或组成员身份，以便决定是否编辑该值。
- table_constraint
  
  向 Delta Lake 表添加信息性主键或信息性外键约束。
  
  hive_metastore 目录中的表不支持键约束。
  
  若要向 Delta Lake 表添加 CHECK 约束，请使用 ALTER TABLE。
USING data_source

data_source 可以是文件格式，也可以是联合 JDBC 数据源。

文件格式必须是以下之一：
- AVRO
- BINARYFILE
- CSV
- DELTA
- JSON
- ORC
- PARQUET
- TEXT
对于除 DELTA 之外的任何文件格式，还必须指定 LOCATION，除非表目录为 hive_metastore。

支持以下联合 JDBC 源：
- POSTGRESQL
- SQLSERVER
- MYSQL
- BIGQUERY
- NETSUITE
- ORACLE
- REDSHIFT
- SNOWFLAKE
- SQLDW
- SYNAPSE
- SALESFORCE
- SALESFORCE_DATA_CLOUD
- TERADATA
- WORKDAY_RAAS
- MONGODB
指定联合 JDBC 源时，还必须指定带有必要连接信息的 OPTIONS 子句。有关查询联合数据源的详细信息，请参阅使用 JDBC 查询数据库。

Databricks Runtime 支持用于表的以下附加文件格式：
- JDBC
- LIBSVM
- org.apache.spark.sql.sources.DataSourceRegister 的自定义实现的完全限定的类名。
如果省略 USING，则默认值为 DELTA。

以下内容适用于：Databricks Runtime

支持 HIVE 在 Databricks Runtime 中创建 Hive SerDe 表。你可以使用 OPTIONS 子句指定 Hive 特定的 file_format 和 row_format，这是不区分大小写的字符串映射。 option_keys 为：
- FILEFORMAT
- INPUTFORMAT
- OUTPUTFORMAT
- SERDE
- FIELDDELIM
- ESCAPEDELIM
- MAPKEYDELIM
- LINEDELIM
table_clauses

可选择指定新表的位置、分区、群集、选项、注释和用户定义的属性。每个子子句只能指定一次。
- PARTITIONED BY
  
  用于按列子集对表进行分区的可选子句。
  
  注意
  
  如果不定义 Delta 表，分区列会放置在表的末尾，即使它们在列规范中较早定义也是如此。请考虑对 Delta 表使用 CLUSTER BY，而不是 PARTITIONED BY。
- CLUSTER BY
  
  适用于： Databricks SQL Databricks Runtime 13.3 及更高版本
  
  一个可选子句，用于按列的子集对 Delta 表进行聚类。若要对其他表进行聚类，请使用 clustered_by_clause。
  
  Delta Lake 液态聚类不能与 PARTITIONED BY 合并。
- clustered_by_clause
  
  可选择使用列子集将表或每个分区聚集到固定数量的哈希桶中。
  
  Delta Lake 表不支持群集功能。
  - CLUSTERED BY
    
    指定列集，用于聚集每个分区，如果未指定任何分区，则用于聚集表。
    - cluster_column
      
      引用表中 column_identifier 的标识符。如果指定多列，则不能有重复项。由于群集在分区级别进行操作，因此不能将分区列同时命名为群集列。
  - SORTED BY
    
    可选择保留桶中的行的排序顺序。
    - sort_column
      
      用于对桶进行排序的列。该列不能为分区列。排序列必须是唯一的。
    - ASC 或 DESC
      
      可选择指定是按升序 (ASC) 还是降序 (DESC) 对 sort_column 进行排序。默认值为 ASC。
  - INTO num_buckets BUCKETS
    
    一个整数文本，用于指定将每个分区（或表 [如果未指定任何分区]）划分到的 Bucket 数目。
- LOCATION path [ WITH ( CREDENTIAL credential_name ) ]
  
  用于存储表数据的可选目录路径，可以是分布式存储上的一个路径。 path 必须是字符串字面量。如果未指定位置，则会将表视为 managed table，并且 Azure Databricks 会创建默认表位置。
  
  指定一个位置会使表成为外部表。
  
  对于未驻留在 hive_metastore 目录中的表（表 path），必须由外部位置保护，除非指定了有效的存储凭据。
  
  不能在与托管表的位置重叠的位置创建外部表。
  
  对于 Delta Lake 表，如果存在数据，则表配置继承自 LOCATION。因此，如果为 Delta Lake 表指定了任何 TBLPROPERTIES、table_specification 或 PARTITIONED BY 子句，则它们必须与 Delta Lake 位置数据完全匹配。
- OPTIONS
  
  设置或重置一个或多个用户定义的表选项。
- COMMENT table_comment
  
  用于描述表的字符串字面量。
- TBLPROPERTIES
  
  可以选择设置一个或多个用户定义的属性。
- WITH ROW FILTER 子句
  
  适用于： Databricks SQL Databricks Runtime 12.2 LTS 及更高版本仅 Unity Catalog
  
  向表中添加行筛选器函数。该表中的所有后续查询都将收到函数计算结果为布尔值 TRUE 的行的子集。这对于细粒度的访问控制目的非常有用，在这种情况下，该函数可以检查调用用户的身份或组成员身份，以决定是否筛选特定行。
AS 查询

此可选子句使用 query 中的数据来填充表。指定 query 时，不能同时指定 table_specification。表架构派生自查询。

请注意，Azure Databricks 会用输入查询的数据覆盖基础数据源，确保创建的表包含与输入查询完全相同的数据。

示例

-- Creates a Delta table
> CREATE TABLE student (id INT, name STRING, age INT);

-- Use data from another table
> CREATE TABLE student_copy AS SELECT * FROM student;

-- Creates a CSV table from an external directory
> CREATE TABLE student USING CSV LOCATION '/path/to/csv_files';

-- Specify table comment and properties
> CREATE TABLE student (id INT, name STRING, age INT)
    COMMENT 'this is a comment'
    TBLPROPERTIES ('foo'='bar');

-- Specify table comment and properties with different clauses order
> CREATE TABLE student (id INT, name STRING, age INT)
    TBLPROPERTIES ('foo'='bar')
    COMMENT 'this is a comment';

-- Create partitioned table
> CREATE TABLE student (id INT, name STRING, age INT)
    PARTITIONED BY (age);

-- Create a table with a generated column
> CREATE TABLE rectangles(a INT, b INT,
                          area INT GENERATED ALWAYS AS (a * b));

-- Create an external table connected to Oracle
> CREATE TABLE IF NOT EXISTS ora_tab
  USING ORACLE
  OPTIONS (
    url '<jdbc-url>',
    dbtable '<table-name>',
    user '<username>',
    password '<password>'
);

> SELECT * FROM ora_tab;

通过

CREATE TABLE [USING]

语法

parameters

示例

其他资源

通过

CREATE TABLE [USING]

语法

parameters

示例

相关文章

其他资源