ORC 映射
适用于:✅Azure 数据资源管理器
当引入源文件采用 ORC 格式时,请使用 ORC 映射将传入数据映射到表内的列。
映射列表中的每个元素定义特定列的映射。 这些元素通过这三个属性进行构造:column
、datatype
和 properties
。 有关详细信息,请参阅数据映射概述。
每个 ORC 映射元素都必须包含以下可选属性之一:
属性 | 类型 | 说明 |
---|---|---|
字段 | string |
ORC 记录中字段的名称。 |
路径 | string |
如果值以 $ 开头,它将被解释为 ORC 文档中将成为表中列内容的字段的路径。 表示整个 ORC 记录的路径为 $ 。 如果值不以 $ 开头,则它将被解释为常量值。 包含特殊字符的路径应当以 ['属性名称'] 格式进行转义。 有关详细信息,请参阅 JSONPath 语法。 |
ConstValue | string |
要用于列而非 ORC 文件内某个值的常数值。 |
转换 | string |
应通过映射转换应用于内容的转换。 |
注意
Field 和 Path 互斥。
以下替代方法等效:
[
{"Column": "event_name", "Properties": {"Path": "$.EventName"}}
]
[
{"Column": "event_name", "Properties": {"Field": "EventName"}}
]
重要
对于排队引入:
- 如果映射中引用的表不存在于数据库中,则会自动创建该表,前提是为所有列指定了有效的数据类型。
- 如果映射中引用的某个列在表中不存在,则在首次为该列引入数据时,会自动将该列添加为表中的最后一列,前提是为该列指定了有效的数据类型。 若要向映射添加新列,请使用 .alter ingestion mapping 命令。
- 使用引入属性对数据进行批处理。 使用的引入映射属性越不同(例如不同的 ConstValue 值),引入就越分散,这可能会导致性能下降。
示例
[
{"Column": "event_timestamp", "Properties": {"Path": "$.Timestamp"}},
{"Column": "event_name", "Properties": {"Path": "$.Event.Name"}},
{"Column": "event_type", "Properties": {"Path": "$.Event.Type"}},
{"Column": "event_time", "Properties": {"Path": "$.Timestamp", "Transform": "DateTimeFromUnixMilliseconds"}},
{"Column": "ingestion_time", "Properties": {"ConstValue": "2021-01-01T10:32:00"}},
{"Column": "full_record", "Properties": {"Path": "$"}}
]
当上述映射作为 .ingest
管理命令的一部分提供时,它将被序列化为 JSON 字符串。
.ingest into Table123 (@"source1", @"source2")
with
(
format = "orc",
ingestionMapping =
```
[
{"Column": "column_a", "Properties": {"Path": "$.Field1"}},
{"Column": "column_b", "Properties": {"Path": "$.[\'Field name with space\']"}}
]
```
)
预先创建的映射
预先创建映射后,请在 .ingest
管理命令中按名称引用映射。
.ingest into Table123 (@"source1", @"source2")
with
(
format="orc",
ingestionMappingReference = "ORC_Mapping"
)
标识映射
在引入期间使用 ORC 映射而不定义映射架构(请参阅标识映射)。
.ingest into Table123 (@"source1", @"source2")
with
(
format="orc"
)