文本审查概念

项目
2024-12-20

可使用 Azure 内容审查器的文本审查模型来分析文本内容，如聊天室、讨论区、聊天机器人、电子商务目录和文档。

服务响应包含以下信息：

不敬词：根据多种语言的内置不敬字词列表执行基于字词的匹配
分类：在机器的辅助下分类成三个类别
个人数据
自动更正的文本
原始文本
语言

亵渎内容

如果 API 在任何受支持语言中检测到任何亵渎字词，这些字词会包含在响应中。响应还会包含这些字词在原始文本中的位置 (Index)。以下示例 JSON 中的 ListId 引用了自定义术语列表（如果可用）中的术语。

"Terms": [
    {
        "Index": 118,
        "OriginalIndex": 118,
        "ListId": 0,
        "Term": "<offensive word>"
    }

注意

对于 language 参数，请分配 eng 或将其留空以查看机器辅助的分类响应（预览功能）。 此功能仅支持英语。

对于不雅用语检测，请使用本文所列的支持语言的 ISO 639-3 代码或留空。

分类

内容审查器的机器辅助文本分类功能仅支持英语，可帮助检测可能不需要的内容。根据上下文，可能会将标记的内容评估为不合适。它表达了每个类别的可能性。该功能使用经过训练的模型来识别可能的辱骂、贬低或歧视性语言。这包括俚语、缩写词、冒犯性和故意拼错的词。

以下 JSON 摘录内容显示了示例输出：

"Classification": {
    "ReviewRecommended": true,
    "Category1": {
        "Score": 1.5113095059859916E-06
    },
    "Category2": {
        "Score": 0.12747249007225037
    },
    "Category3": {
        "Score": 0.98799997568130493
    }
}

说明

Category1 指可能存在某些情况下被视为色情或成人性质的语言。
Category2 指可能存在某些情况下被视为性暗示或过于成熟的语言。
Category3 指可能存在某些情况下被视为具攻击性的语言。
Score 介于 0 和 1 之间。分数越高，类别可能适用的概率就越高。此功能依赖于统计模型，而不是人工编码结果。我们建议你对自己的内容进行测试，以确定每个类别是否符合要求。
ReviewRecommended 为 true 或 false，具体情况取决于内部评分阈值。客户应评估是使用该值，还是根据他们的内容策略确定自定义阈值。

个人数据

个人数据功能检测是否可能存在以下信息：

电子邮件地址
美国邮寄地址
IP 地址
美国电话号码

以下示例显示了示例响应：

"pii":{
  "email":[
      {
        "detected":"abcdef@abcd.com",
        "sub_type":"Regular",
        "text":"abcdef@abcd.com",
        "index":32
      }
  ],
  "ssn":[

  ],
  "ipa":[
      {
        "sub_type":"IPV4",
        "text":"255.255.255.255",
        "index":72
      }
  ],
  "phone":[
      {
        "country_code":"US",
        "text":"6657789887",
        "index":56
      }
  ],
  "address":[
      {
        "text":"1 Microsoft Way, Redmond, WA 98052",
        "index":89
      }
  ]
}

自动更正

文本审查响应可以选择返回应用了基本自动更正的文本。

例如，以下输入文本有拼写错误。

The quick brown fox jumps over the lazzy dog.

如果指定执行自动更正，则响应会包含更正后的文本版本：

The quick brown fox jumps over the lazy dog.

创建和管理自定义字词列表

尽管在默认情况下，全局字词列表能够很好地满足大部分需要，但你可能想要根据自己的具体业务需求筛选字词。例如，你可能想要从用户的发布内容中，筛选出所有竞争品牌名称。

注意

最多只能使用五个字词列表，每个列表中的字词数不得超过 10,000 个。

以下示例显示匹配的列表 ID：

"Terms": [
    {
        "Index": 118,
        "OriginalIndex": 118,
        "ListId": 231.
        "Term": "<offensive word>"
    }

内容审查器提供字词列表 API 和相应的操作用于管理自定义字词列表。如果熟悉 Visual Studio 和 C#，请查看字词列表 .NET 快速入门。

快速入门：使用内容审查器客户端库

通过

文本审查概念

亵渎内容

分类

说明

个人数据

自动更正

创建和管理自定义字词列表

相关内容

其他资源