Azure AI 搜索中 `$filter`、`$orderby` 和 `$select` 的 OData 语言概述

项目
2024-10-21

本文概述了在 Azure AI 搜索中使用 $filter、$order-by 和 $select 表达式的 OData 表达式语言，这些表达式用于在 Azure AI 搜索中对数字和字符串（非函数）字段进行关键字搜索。

该语言按“自下而上”的顺序演示，从最基本的元素开始。可以在查询请求中构造的 OData 表达式从简单到非常复杂，但它们全部共享通用元素。共享元素包括：

字段路径：引用索引的特定字段。
常量：特定数据类型的文本值。

了解这些常见概念后，可以继续使用每个表达式的顶级语法：

$filter 表达式在查询分析期间进行求值，将搜索范围限制为特定字段或添加索引扫描期间使用的匹配条件。
$orderby 表达式作为后处理步骤应用于结果集，对返回的文档进行排序。
$select 表达式确定要包含在结果集中的文档字段。

这些表达式的语法不同于 search 参数中使用的简单或完整查询语法，但引用字段的语法中存在一定的重叠。

有关其他语言（如 Python 或 C#）的示例，请参阅 azure-search-vector-samples 存储库中的示例。

注意

Azure AI 搜索中的术语在某些方面不同于 OData 标准。 Azure AI 搜索中所谓的字段在 OData 中称为属性，类似地，字段路径在 OData 中称为属性路径。 Azure AI 搜索中包含文档的索引在 OData 中更普遍地称为包含实体的实体集。本参考文档使用 Azure AI 搜索的术语。

字段路径

以下 EBNF（扩展巴科斯-瑙尔范式）定义字段路径的语法。

field_path ::= identifier('/'identifier)*

identifier ::= [a-zA-Z_][a-zA-Z_0-9]*

下面还提供了交互式语法图：

Azure AI 搜索的 OData 语法图

注意

请参阅适用于 Azure AI 搜索的 OData 表达式语法参考以获取完整的 EBNF。

字段路径由斜杠分隔的一个或多个标识符组成。每个标识符是必须以 ASCII 字母或下划线开头的一系列字符，只能包含 ASCII 字母、数字或下划线。字母可以采用大写或小写。

标识符可以引用字段的名称，或者引用筛选器的集合表达式上下文中的某个范围变量（any 或 all）。范围变量类似于表示集合的当前元素的循环变量。对于复杂集合，该变量表示某个对象，正因如此，你可以使用字段路径来引用变量的子字段。这类似于许多编程语言中的点表示法。

下表显示了字段路径的示例：

字段路径	说明
`HotelName`	引用索引的顶级字段
`Address/City`	引用索引中复杂字段的 `City` 子字段；在此示例中，`Address` 的类型为 `Edm.ComplexType`
`Rooms/Type`	引用索引中复杂集合字段的 `Type` 子字段；在此示例中，`Rooms` 的类型为 `Collection(Edm.ComplexType)`
`Stores/Address/Country`	引用索引中复杂集合字段的 `Address` 子字段的 `Country` 子字段；在此示例中，`Stores` 的类型为 `Collection(Edm.ComplexType)`，`Address` 的类型为 `Edm.ComplexType`
`room/Type`	引用 `room` 范围变量的 `Type` 子字段（例如，在筛选表达式 `Rooms/any(room: room/Type eq 'deluxe')` 中）
`store/Address/Country`	引用 `store` 范围变量的 `Address` 子字段的 `Country` 子字段（例如，在筛选表达式 `Stores/any(store: store/Address/Country eq 'Canada')` 中）

字段路径的含义因上下文而异。在筛选器中，字段路径引用当前文档中某个字段的单个实例的值。在其他上下文中（例如 $orderby、 $select，或完整 Lucene 语法中的字段搜索），字段路径引用该字段本身。这种差异会根据你在筛选器中使用字段路径的方式而产生一些后果。

以字段路径 Address/City 为例。在筛选器中，此字段路径引用当前文档的单个城市，例如“旧金山”。相比之下，Rooms/Type 引用许多客房的 Type 子字段（例如，“标准”表示第一间客房，“豪华”表示第二间客房，等等）。由于 Rooms/Type 不引用子字段 Type 的单个实例，因此不能直接在筛选器中使用。若要根据客房类型进行筛选，请使用包含范围变量的 Lambda 表达式，如下所示：

Rooms/any(room: room/Type eq 'deluxe')

在此示例中，范围变量 room 显示在 room/Type 字段路径中。于是，room/Type 引用当前文档中当前客房的类型。这是 Type 子字段的单个实例，因此可以直接在筛选器中使用。

使用字段路径

Azure AI 搜索 REST API 的许多参数中使用字段路径。下表列出了可以使用字段路径的所有位置，以及字段路径用法的任何限制：

API	参数名称	限制
创建或更新索引	`suggesters/sourceFields`	无
创建或更新索引	`scoringProfiles/text/weights`	只能引用可搜索字段
创建或更新索引	`scoringProfiles/functions/fieldName`	只能引用可筛选字段
搜索	当 `queryType` 为 `full` 时，该参数为 `search`	只能引用可搜索字段
搜索	`facet`	只能引用可分面字段
搜索	`highlight`	只能引用可搜索字段
搜索	`searchFields`	只能引用可搜索字段
建议和自动完成	`searchFields`	只能引用属于建议器的字段
搜索、建议和自动完成	`$filter`	只能引用可筛选字段
搜索和建议	`$orderby`	只能引用可排序字段
搜索、建议和查找	`$select`	只能引用可检索字段

常量

OData 中的常量是给定实体数据模型 (EDM) 类型的文本值。有关 Azure AI 搜索中受支持类型的列表，请参阅支持的数据类型。不支持集合类型的常量。

下表显示了支持 OData 表达式的每个非函数数据类型的常量示例：

数据类型	示例常量
`Edm.Boolean`	`true`，`false`
`Edm.DateTimeOffset`	`2019-05-06T12:30:05.451Z`
`Edm.Double`	`3.14159`，`-1.2e7`，`NaN`，`INF`，`-INF`
`Edm.GeographyPoint`	`geography'POINT(-122.131577 47.678581)'`
`Edm.GeographyPolygon`	`geography'POLYGON((-122.031577 47.578581, -122.031577 47.678581, -122.131577 47.678581, -122.031577 47.578581))'`
`Edm.Int32`	`123`，`-456`
`Edm.Int64`	`283032927235`
`Edm.String`	`'hello'`

转义字符串常量中的特殊字符

OData 中的字符串常量由单引号分隔。如果需要使用本身可能包含单引号的字符串常量构造查询，则可以通过将嵌入的引号加倍来对其进行转义。

例如，带有无格式撇号的短语（如“Alice's car”）将在 OData 中表示为字符串常量 'Alice''s car'。

重要

以编程方式构建筛选器时，请记住转义来自用户输入的字符串常量，这一点很重要。这是为了减少注入攻击的可能性，特别是在使用筛选器实现安全修整时。

常量语法

以下 EBNF（扩展巴科斯-瑙尔范式）定义上表中所示的大多数常量的语法。可在 Azure AI 搜索中的 OData 地理空间函数中找到地理空间类型的语法。

constant ::=
    string_literal
    | date_time_offset_literal
    | integer_literal
    | float_literal
    | boolean_literal
    | 'null'

string_literal ::= "'"([^'] | "''")*"'"

date_time_offset_literal ::= date_part'T'time_part time_zone

date_part ::= year'-'month'-'day

time_part ::= hour':'minute(':'second('.'fractional_seconds)?)?

zero_to_fifty_nine ::= [0-5]digit

digit ::= [0-9]

year ::= digit digit digit digit

month ::= '0'[1-9] | '1'[0-2]

day ::= '0'[1-9] | [1-2]digit | '3'[0-1]

hour ::= [0-1]digit | '2'[0-3]

minute ::= zero_to_fifty_nine

second ::= zero_to_fifty_nine

fractional_seconds ::= integer_literal

time_zone ::= 'Z' | sign hour':'minute

sign ::= '+' | '-'

/* In practice integer literals are limited in length to the precision of
the corresponding EDM data type. */
integer_literal ::= digit+

float_literal ::=
    sign? whole_part fractional_part? exponent?
    | 'NaN'
    | '-INF'
    | 'INF'

whole_part ::= integer_literal

fractional_part ::= '.'integer_literal

exponent ::= 'e' sign? integer_literal

boolean_literal ::= 'true' | 'false'

下面还提供了交互式语法图：

Azure AI 搜索的 OData 语法图

注意

请参阅适用于 Azure AI 搜索的 OData 表达式语法参考以获取完整的 EBNF。

基于字段路径和常量生成表达式

字段路径和常量是 OData 表达式的最基本组成部分，但它们已经是完整的表达式。事实上，Azure AI 搜索中的 $select 参数无非就是逗号分隔的字段路径列表，而 $orderby 也并不比 $select 复杂多少。如果你正好在索引中使用了 Edm.Boolean 类型的字段，则你甚至可以编写一个只包含该字段的路径的筛选器。常量 true 和 false 同样是有效的筛选器。

但是，具有引用多个字段和常量的复杂表达式更为常见。这些表达式的生成方式根据参数而异。

以下 EBNF（扩展巴科斯-瑙尔范式）定义 $filter 、$orderby 和 $select 参数的语法。这些表达式是基于引用字段路径和常量的更简单表达式生成的：

filter_expression ::= boolean_expression

order_by_expression ::= order_by_clause(',' order_by_clause)*

select_expression ::= '*' | field_path(',' field_path)*

下面还提供了交互式语法图：

Azure AI 搜索的 OData 语法图

注意

请参阅适用于 Azure AI 搜索的 OData 表达式语法参考以获取完整的 EBNF。

后续步骤

$orderby 和 $select 参数都是较简单表达式的逗号分隔列表。 $filter 参数是由较简单的子表达式构成的布尔表达式。这些子表达式是使用逻辑运算符（例如 and、or 和 not）、比较运算符（例如 eq、lt、gt 等）和集合运算符（例如 any 和 all）合并的。

以下文章更详细地探讨了 $filter、 $orderby 和 $select 参数：

通过

Azure AI 搜索中 $filter、$orderby 和 $select 的 OData 语言概述

字段路径

使用字段路径

常量

转义字符串常量中的特殊字符

常量语法

基于字段路径和常量生成表达式

后续步骤

其他资源

Azure AI 搜索中 `$filter`、`$orderby` 和 `$select` 的 OData 语言概述