宣布 Rekogniton 自定义内容审核:使用您的数据增强预训练 Rekognition 审核模型
新版 Amazon Rekognition 自定义内容审核:使用您的数据提升预训练模型的准确性
作者:Lana Zhang Aakash Deep 和 Shipra Kanoria发布日期:2023年10月19日来源:Amazon Machine Learning
关键要点
新功能: Amazon Rekognition 现在推出自定义内容审核功能,可以使用少量自定义数据来提高预训练审核模型的准确性。企业应用 适用于电商、社交媒体和游戏等多个行业,可以有效管理用户生成的内容,帮助维护品牌声誉。操作简便: 用户可在不到1小时内通过简单的步骤完成适配器训练,无需机器学习专业知识。随着企业越来越依赖用户生成的图像和视频进行互动,从鼓励顾客在电商平台分享产品图像到社交媒体公司推广用户生成的内容,确保这些内容符合规定并为用户提供安全的在线社区便显得越来越重要。然而,管理不当的用户生成内容可能会影响用户体验和品牌形象。
目前,许多公司依赖人工审核员或者被动响应用户投诉来管理不合适的内容。这种方法无法高效地对数百万条图像和视频进行及时审核,常常导致用户体验变差和额外成本。而现在,我们将探讨如何在 Amazon Rekognition 中使用自定义审核功能提升预训练内容审核 API 的准确性。
Amazon Rekognition 的内容审核
Amazon Rekognition 是一项托管的人工智能 (AI) 服务,提供预训练和可定制的计算机视觉能力,从图像和视频中提取信息和见解。其中的一项功能是 内容审核,它可以检测这些图像和视频中的不当或不需要的内容。该服务使用分层分类法,将不当内容标记为 10 个顶级审核类别如暴力、色情、酒精或毒品以及 35 个二级类别。跨多个行业如电商、社交媒体和游戏的客户可以利用此功能来保护品牌形象并促进安全的用户社区。
通过使用 Amazon Rekognition 进行图像和视频审核,人工审核员只需审查经过内容审核模型标记的小部分内容通常为总量的 15,从而使公司能够专注于更具价值的工作,同时以更低的成本实现全面审核。
推出 Amazon Rekognition 自定义审核
您现在可以利用自定义审核功能提高 Rekognition 审核模型在特定业务数据上的准确性。您只需使用 20 张标记图像,便可在不到一个小时内训练定制适配器。这些适配器扩展了审核模型的能力,以更高的准确性检测用于训练的图像。本文将使用一个包含安全图像和含有酒精饮料被视为不安全的图像的数据集来提升酒精审核标签的准确性。
受过训练的适配器的唯一 ID 可用于现有 DetectModerationLabels API 操作来处理图像。每个适配器仅可由用于训练的 AWS 账户使用,确保训练过程中使用的数据保持安全。在自定义审核功能的帮助下,您无需任何机器学习ML专业知识即可根据特定的审核用例调整 Rekognition 预训练审核模型以提高性能。您仍然可以享受到完全托管的审核服务所带来的优势,并且其计费模式为按需付费。

解决方案概述
训练自定义审核适配器涉及五个步骤,可以通过 AWS 管理控制台 或 API 接口完成:
创建项目上传训练数据为图像分配真实标签训练适配器使用适配器让我们更详细地了解使用控制台的这些步骤。
创建项目
项目是存储适配器的容器。您可以在一个项目中训练多个适配器,使用不同的训练数据集来评估哪个适配器在特定使用案例中表现最佳。完成以下步骤以创建项目:
在 Amazon Rekognition 控制台中,选择导航窗格中的 Custom Moderation。选择 Create project。
在 Project name 中输入您的项目名称。
在 Adapter name 中输入适配器名称。可选:为适配器输入描述。上传训练数据
您可以从仅 20 张样本图像开始,自定义审核模型,以检测更少的误报被模型标记为有审核标签的适合业务的图像。为了减少漏报被视为不适合业务但没有标记的图像,要求您至少开始时使用 50 张样本图像。
您可以通过以下选项提供适配器训练所需的图像数据集:
导入带有标签的清单文件,遵循 Amazon Rekognition 内容审核的分类法。从 Amazon Simple Storage ServiceAmazon S3桶中导入图像并提供标签。确保用于指定 S3 桶文件夹的 AWS 身份与访问管理 (IAM)用户或角色具有适当的访问权限。从您的计算机上传图像并提供标签。完成以下步骤:
在本帖中,选择 Import images from S3 bucket 并输入您的 S3 URI。
对于本帖,选择 Autosplit。
选择 Enable autoupdate,以确保系统在发布新版本的内容审核模型时自动重新训练适配器。选择 Create project。为图像分配真实标签
上传未标记图像后,您可以使用 Amazon Rekognition 控制台根据审核分类法为图像提供标签。在以下示例中,我们训练一个适配器,以更高准确性检测隐藏酒精,并将所有此类图像标记为酒精。可以将未被考虑为不当的图像标记为安全。
训练适配器
标记完所有图像后,选择 Start training 来启动训练过程。Amazon Rekognition 将使用上传的图像数据集来训练适配器模型,以增强对特定类型图像的准确性。
自定义审核适配器训练完成后,您可以在 Adapter performance 部分查看所有适配器详细信息adapterID,test 和 training 清单文件。Adapter performance 部分展示了与预训练审核模型相比,误报和漏报的改进。我们训练的适配器能够将酒精标签的漏报率降低 73。换句话说,适配器现在能够准确预测 73 更多的图像酒精审核标签,而相比于预训练审核模型并没有观察到误报方面的改进。
使用适配器
您可以使用新训练的适配器进行推断,以提高准确性。为此,请调用 Amazon Rekognition 的 DetectModerationLabel API,并添加额外参数 ProjectVersion,即该适配器的唯一 AdapterID。以下是使用 AWS 命令行接口 (AWS CLI) 的示例命令:
bashaws rekognition detectmoderationlabels image S3Object={Bucket=ltbucketgtName=ltkeygt} projectversion ltARN of the Adaptergt region useast1
以下是使用 Python Boto3 库 的示例代码片段:
白鲸加速官方pythonimport boto3
client = boto3client(rekognition)response = clientdetectmoderationlabels( Image={ S3Object { Bucket Name } } ProjectVersion=)
训练的最佳实践
为了最大化适配器的性能,建议遵循以下最佳实践:
样本图像数据应捕捉到您想要提升审核模型准确性所代表的错误。除了只引入漏报和误报图像外,您也可以提供真阳性和真阴性以提高性能。尽可能多地提供标记图像用于训练。结论
在本文中,我们详细介绍了新的 Amazon Rekognition 自定义审核功能,并详细描述了使用控制台进行训练的步骤和最佳实践。如需更多信息,请访问 Amazon Rekognition 控制台,探索自定义审核功能。
Amazon Rekognition 自定义审核 现在在所有支持 Amazon Rekognition 的 AWS 区域普遍可用。
了解更多关于 AWS 上的内容审核 的信息,开始寻找 简化您的内容审核操作的机会。
作者介绍
Shipra Kanoria 是 AWS 的高级产品经理,对利用机器学习和人工智能帮助客户解决复杂问题充满热情。在加入 AWS 之前,Shipra 在 Amazon Alexa 工作超过 4 年,推出了许多与生产力相关的功能。
Aakash Deep 是一位位于西雅图的软件开发工程经理,擅长计算机视觉、AI 和分布式系统。他的使命是使客户能够解决复杂问题,并利用 AWS Rekognition 创造价值。在工作之外,他喜欢远足和旅行。
Lana Zhang 是 AWS WWSO AI 服务团队的高级解决方案架构师,专注于内容审核、计算机视觉、自然语言处理和生成式 AI 的 AI 和 ML。她致力于推广 AWS 的 AI/ML 解决方案,协助客户在社交媒体、游戏、电商、媒体、广告和营销等多种行业改进商业解决方案。