AIGC产品内容安全测试浅析

AI 5个月前 admin

67 0 0

点击蓝字关注我们

AIGC产品内容安全测试浅析

引言

AIGC（Artificial Intelligence Generated Content，生成式人工智能）技术，依托生成对抗网络、大型预训练模型等人工智能方法，通过对已有数据的深入学习与识别，结合出色的泛化能力，生成丰富多样的内容，包括文本、图片、音频和视频等。自2022年11月ChatGPT的发布以来，AIGC技术的发展如日中天，催生了大量创新产品。最近，OpenAI推出的文生视频大模型Sora及其48个文生视频案例，被誉为“世界模拟器的视频生成模型”，一经亮相便吸引了全球范围内的广泛关注与热烈讨论。

AIGC技术的应用场景日趋广泛，不仅涉及新闻文章的自动生成、音乐创作、AI绘画，还涵盖了辅助编程、AI客服、营销广告制作以及医疗辅助诊断等多个领域，其影响力正逐步渗透到各行各业的核心业务中。

然而，随着AIGC技术的广泛应用，内容安全问题逐渐浮出水面，成为开发者、企业和监管机构必须直面的严峻挑战。本文将探讨AIGC产品、业务场景及其内容安全测试的相关知识，分享我们团队从零开始接触AIGC安全领域，通过持续学习与实践所积累的相关经验。

AIGC产品简介

AIGC产品的工作流程

AIGC产品使用了大模型的能力来优化业务流程、解决业务问题，这类产品的生命周期可简单用下图概括：

以谷歌Vertex AI产品为例，AIGC产品的典型工作流如下图：

工作流说明如下：

1、用户在产品界面输入问题，即提示词（prompt）。提示词是发送到大模型以产生响应的自然语言请求。

2、内容安全审核模块（图中为 Responsible AI & Safety）对用户输入进行过滤，检查用户输入的内容与安全分类的相似度。如果一个或多个类别超过阈值，则会直接返回兜底回复，不会把用户输入传递给基础模型。

3、基础模型根据提示词生成响应内容。

4、如果有本地知识库，则会调用本地知识库（图中为Grounding Service服务）。本地知识库可以增强模型垂类行业的能力，并可以减少模型幻觉，降低模型更新成本。

5、检查生成的响应内容中是否需要包含引用（图中为Citation Check）。如果响应中有大量文本来自特定来源，则该来源会添加到响应中的引用元数据。

6、内容安全审核模块对生成的响应内容进行过滤，检查生成的响应内容与安全分类的相似度。如果一个或多个类别超过阈值，则会直接返回兜底回复，不会把基础模型生成内容返回。

7、产品界面展示最终输出。

可以发现在整个工作流中，内容安全审核模块在整个工作流中扮演着至关重要的角色。它不仅是用户输入与基础模型之间的第一道防线，确保恶意输入不会传递给模型，降低潜在的风险，如提示词注入、模型注入攻击等；同时，它也是最后一道关卡，对模型输出的内容进行二次筛选，进一步降低不安全内容的输出概率。

AIGC产品安全测试

与传统产品安全测试的差异

1、目标定位

传统产品安全测试：聚焦于识别并修复软件中的漏洞，确保系统稳定、可靠，抵御外部攻击和内部错误。

AIGC产品安全测试：不仅关注传统安全测试的目标，还扩展到确保AI生成内容的合规性、合法性，遵循社会伦理和文化规范，防止有害信息传播，并尊重版权与知识产权。

2、测试重点

传统产品安全测试：主要依赖漏洞扫描、渗透测试、风险评估等手段，侧重于技术层面的安全漏洞识别与修复。

AIGC产品安全测试：除了技术层面的测试外，特别强调对AI生成内容的实时审核，保证内容的安全性、合规性，这要求测试在技术和内容层面都要有深入的考量。

3、工具需求

传统产品安全测试：依赖静态应用程序安全测试（SAST）、动态应用程序安全测试（DAST）等工具。

AIGC产品安全测试：除了使用传统工具外，还需引入专门针对AI模型和生成内容的工具，如内容过滤系统、敏感词检测工具和版权检测工具等，以确保测试的全面性和准确性。

4、测试难度与挑战

传统产品安全测试：由于产品行为相对固定，测试可以通过预设场景来验证系统的响应和防御效果。

AIGC产品安全测试：面临动态性和非确定性的挑战，需要覆盖更广泛的输入范围，并确保模型在未知情境下不会生成有害内容。这要求构建大量的测试数据集，并依赖自动化测试来应对庞大的数据验证任务，人工方式难以胜任。

AIGC产品内容安全风险

AIGC产品最主要的问题就是内容安全，主要风险分类如下图：

上面是一些概括的分类，详细的分类也可以参考TC260《生成式人工智能服务安全基本要求（征求意见稿）》中的附录A-语料及生成内容的主要安全风险（共 5 类 31 种）。

AIGC文本生成场景的安全测试

业务场景

文本生成技术在不同业务场景中发挥着重要作用，以下是对各个场景的具体分析：

1、聊天：在线客服系统可以通过大模型与用户进行智能对话，解答问题、提供建议，提升客户满意度。虚拟助手则可以在个人设备上为用户提供日程管理、信息查询等服务。

2、写作：新闻报道自动生成可以根据事件数据快速生成简洁明了的新闻稿件。广告文案生成可以根据产品特性和目标受众定制吸引人的广告文字。学术论文辅助写作则可以帮助研究者整理思路、生成摘要或初步草案。

3、文档分析：文档摘要生成可以为用户提供长文档的快速概览。文档问答系统则可以根据用户的问题从大量文档中找到相关信息并生成简洁明了的回答。

4、机器翻译：跨语言交流在全球化背景下变得日益重要，大模型可以实现高质量的机器翻译，帮助用户打破语言障碍，促进不同文化之间的交流和理解。

5、代码生成：开发人员可以借助大模型快速生成代码片段或完整的程序，从而提高编码效率。此外，模型还可以辅助解决编程问题，如代码调试和优化。

文本生成场景内容安全测试

内容安全测试在文本生成的业务场景下至关重要，因为它能够确保生成的文本内容符合法律法规、社会伦理和文化规范，不传播有害信息，并尊重版权和知识产权。以下是针对文本生成业务场景的内容安全测试步骤的详细说明：

1、明确测试目的：

· 在文本生成的业务场景下，测试目的可能包括检查生成的文本是否含有违法信息、虚假信息、是否包含版权保护的内容等。

· 根据这些目的，制定详细的测试计划，并设计或选择适当的测试数据集。

2、构建测试数据集：

· 针对文本生成的特点，构建包含各种潜在风险内容的测试数据集。这可以包括敏感词、不当表达、违法信息、版权内容等。

· 可以从现有的文本资源中筛选和提取测试数据。

· 可以利用开源数据集或本地搭建的大模型生成测试数据。

· 设计提示词模板，以便能够自动生成多样化的测试输入。

3、执行自动化测试：

· 利用自动化测试工具或框架，对文本生成模型进行批量测试。这可以包括输入不同的提示词，检查生成的文本是否符合预期。

· 自动化测试可以大大提高测试效率，减少人工干预，并确保测试的一致性和可重复性。

4、对测试结果进行标注：

· 由于文本生成的结果具有不确定性和复杂性，对测试结果的标注通常需要人工参与。

· 标注人员需要根据测试目的和标注规范，对生成的文本进行逐一检查，并标记出其中存在的风险内容或不符合要求的部分。

· 如果测试数据集构造的都是选择题，则可以通过程序进行自动化标注。

5、对标注结果进行汇总、分析，评估测试效果：

· 对标注结果进行汇总和分析，统计各类风险内容的出现频率和比例，评估测试效果。

· 根据分析结果，对文本生成模型进行优化和改进，以提高生成内容的安全性和合规性。

· 定期更新测试数据集和标注规范，以适应不断变化的法律法规和社会规范。

在文本生成的业务场景下，内容安全测试是确保生成内容质量和合规性的重要环节。通过明确测试目的、构建测试数据集、执行自动化测试、对测试结果进行标注和分析等步骤，可以有效地识别和降低生成内容中的安全风险。

注意：TC260《生成式人工智能服务安全基本要求（征求意见稿）》中对生成内容安全评估、测试题库有明确的要求，即对大模型的内容安全审核能力有具体的指标要求。主要内容如下图：

AIGC图片生成场景的安全测试

业务场景

图片生成有以下2种业务场景，场景演示以Stable Diffusion为例：

1、文生图（Text-to-Image Generation）

业务场景概述：

文生图，作为一种前沿的图像生成技术，允许用户通过输入简短的提示词（prompts），利用大型模型（如Stable Diffusion）生成对应的图片。这种技术的核心在于，用户无需提供完整的句子或详细描述，只需几个关键词，即可引导模型生成符合预期的图像。

SD的文生图界面如下图：

提示词类型与运用：

· 正向提示词（Positive Prompts）：这些词汇描述了用户希望出现在生成图片中的元素或特征。例如，用户可能输入“森林”、“日出”等关键词，以指导模型生成包含这些元素的图片。

· 反向提示词（Negative Prompts）：与正向提示词相反，反向提示词用于排除不希望出现在生成图片中的内容。这有助于进一步精确用户的需求，确保生成的图片更加符合期望。例如，用户可能不希望图片中包含“城市”、“建筑物”等元素，这些都可以通过反向提示词来实现。

应用实例：

· 创意设计：设计师可以利用文生图技术快速生成多样化的图像概念，从而加速设计迭代和优化过程。

· 内容创作：对于插画师、艺术家等创作者而言，文生图提供了一个全新的创作工具，能够迅速生成符合特定风格的图像，提高创作效率。

· 个性化定制：用户可以根据自己的喜好和需求，通过调整提示词来生成个性化的图片，如定制化的艺术品、壁纸等。

注意：虽然文生图技术具有广泛的应用前景，但也存在生成不准确、与提示词不符等潜在风险。因此，在使用时，用户需要根据具体需求选择合适的提示词，并关注生成图片的质量。

2、图生图（Image-to-Image Generation）

业务场景概述：

图生图技术是一种先进的图像编辑方法，它结合了文字与原始图片的信息，通过大模型（如Stable Diffusion）进行二次创作。这种技术允许用户选择一张已有的图片作为基础，并输入特定的提示词来指导模型对原图进行修改和优化。

操作过程：

（1）选择基础图片：用户首先选择一张现有的图片作为二次创作的基础。

（2）输入提示词：用户输入一系列提示词，说明他们希望在这张图片上进行的修改或增强。这些提示词可以是关于颜色、风格、元素添加或移除等方面的指示。

（3）模型处理与输出：大模型根据用户提供的提示词和原始图片信息，进行二次创作，并输出修改后的图片。这一过程显著减少了传统图像编辑中可能遇到的随机性和不确定性。

SD的图生图界面如下图：

这里原始图片是一个女孩，输入的提示词是“1 boy”，最终生成的图片会偏向男性。

应用实例：

· 精细化编辑：摄影师或设计师可以利用图生图技术对他们的图片进行精细化的调整，如改变光线、色彩平衡或添加特效，从而得到更加符合他们预期的效果。

· 风格迁移：艺术家可以将他们喜欢的风格应用到另一张图片上，创造出独特的视觉效果。

· 个性化定制：用户可以根据自己的喜好和需求，定制个性化的图片，如调整家居装饰图片的颜色、风格等。

图片生成场景内容安全测试

1、业务场景概述：

1) 文生图（Text-to-Image Generation）

· 输入：用户提供的文本描述。

· 处理：大型模型（如Stable Diffusion）根据文本描述生成图片。

· 输出：生成的图片。

2) 图生图（Image-to-Image Generation）

· 输入：用户提供的原始图片，以及文本描述，包括两种模态。

· 处理：大型模型结合图片和文本描述进行二次创作。

· 输出：修改后的图片。

如果要评估从输入到输出总体的内容安全审核模块能力，则只需要构造输入模态的测试数据集；如果需要评估输入、输出各自的内容安全审核能力，则需要构造输入、输出两个阶段模态的测试数据集。

2、测试数据集的构建

1) 文本内容安全测试数据集

· 目的：评估模型对潜在有害或不当文本内容的识别和处理能力。

· 构建方法：收集包含各种风险分类的文本数据，如敏感词、不当表达、违法信息等。

2) 图片内容安全测试数据集

· 目的：评估模型输入图片、输出图片的内容安全性和合规性。

· 构建方法：

(1) 利用现有的图片资源，筛选和提取包含风险内容的图片。

(2) 使用开源数据集。

(3) 使用本地搭建的大模型（如Stable Diffusion）生成测试图片数据集。

图片生成业务场景下

的内容审核特点

在图片生成业务场景中，内容安全审核显得尤为关键。与文本生成产品不同，图片生成产品面临着更为复杂和细致的挑战。以下是对图片生成业务场景下内容安全审核的详细分析：

1、正向与负向提示词的应用：

在很多生图产品中，用户输入的提示词被明确分为正向和负向两类。正向提示词用于指导模型生成符合预期的图像内容，而负向提示词则用于排除不希望出现在生成图片中的元素。这种区分使得用户能够更精确地控制生成图片的内容和方向。

与之相对，生文产品（文本生成产品）通常不需要负向提示词，因为文本生成的结果更多地依赖于语法和语境，而非简单的元素排除。

2、文生图与文生文的内容安全审核差异：

文生图与文生文的输入侧内容安全审核存在显著差异。这主要体现在工作流程、算法应用以及敏感词范围等方面。由于图片生成需要过滤的敏感词范围更广，审核过程通常更加严格和复杂。例如，国旗、国徽等代表国家象征的物品在生图时是不允许出现错误的，这要求生图产品在审核时必须严格拒绝此类词语。同样，NSFW等不适合在工作场所浏览的内容也需要从正面提示词中进行过滤，确保生成的图片符合工作场所的规范。

3、测试数据集的构建策略：

由于文生图的提示词可以是多个单词的组合，这增加了生成不合规图片的风险。因此，在构建测试数据集时，需要特别设计这类提示词，以全面评估模型的安全性。通过模拟用户可能输入的各种组合，可以更有效地测试模型在实际使用中的表现，从而确保内容安全审核的准确性和可靠性。

4、图片内容安全审核的深层次挑战：

与文本生成产品相比，图片生成产品的内容安全审核需要考虑图像本身可能隐含的深层次含义，一幅图画可能包含丰富的信息和复杂的内涵。为此，图片生成产品需要借助图像识别技术和深度学习算法来深入理解图像的内涵。

5、输入内容安全审核的处理方式差异：

在文本生成产品中，当检测到高风险内容时，可以通过知识库或兜底回复等策略进行应对。这些策略允许系统在确保内容安全的同时，仍然为用户提供相对友好性的信息。然而，在图片生成产品中，当检测到高风险内容时，通常只能采取拒答的处理方式，这意味着系统将拒绝生成可能导致安全问题的图片，从而确保内容安全。

综上所述，图片生成业务场景下的内容安全审核具有其独特性和复杂性。通过深入了解和应用相关的技术和策略，可以确保生成的图片既符合用户期望又满足安全合规。

总结

广州互联网法院近日对一起涉及生成式人工智能（AI）服务侵犯著作权的案件作出了生效判决。这起案件不仅是国内首例，而且在全球范围内也是首例生成式AI服务侵犯他人著作权的生效判决。该判决对AI领域的内容安全测试提出了更高的要求。法院认定，被告某人工智能公司在提供生成式AI服务时，未经原告授权，使用了原告享有著作权的奥特曼作品进行复制和改编，侵犯了原告的合法权益。根据相关法律法规，被告被判定承担相应的民事责任。

此案的发生正值AIGC技术迅速发展的时期，内容安全测试的重要性日益凸显。由于AIGC具有强大的内容生成能力，但也可能带来版权、隐私等方面的风险。因此，确保AIGC产生的内容符合法律法规和伦理标准，成为了行业发展的关键。此次广州互联网法院的判决为AIGC领域的内容安全测试提供了重要的法律指引，同时也提醒了行业应加强对AIGC技术的监管和自律，确保技术的健康发展。

为了确保AIGC内容的安全性，我们需要持续改进和适应新技术，不断更新安全测试策略。这包括提升自动化测试能力，引入新的检测工具和技术，以及加强对AIGC生成内容的全面有效审查。只有这样，AIGC才能真正发挥其在提升内容生产效率、激发创新潜能等方面的巨大优势，造福人类。

参考文档

https://cloud.google.com/vertex-ai/docs/generative-ai/learn/overview?hl=zh-cn

https://www.tc260.org.cn/front/postDetail.html?id=20231011143225

https://m.21jingji.com/article/20240226/herald/133a6c2f9c0b045899e4dea10c5778eb.html

【END】

往期精彩合集