用于生成式 AI 的 Python 风险识别工具 (PyRIT) 是一个开放的 访问自动化框架,为安全专业人员和 ML 提供支持 工程师到红队基础模型及其应用。
PyRIT 是由 AI Red Team 为研究人员和工程师开发的库 帮助他们评估其 LLM 端点针对不同 危害类别,例如捏造/不接地气的内容(例如幻觉), 滥用(例如偏见)和违禁内容(例如骚扰)。
PyRIT 可自动执行 AI 红队任务,使操作员能够专注于更多 复杂且耗时的任务,还可以识别安全危害,例如 滥用(例如,恶意软件生成、越狱)和隐私损害 (例如,身份盗窃)。
目标是让研究人员对他们的模型有多好有一个基线 整个推理管道正在针对不同的危害类别和 以便能够将该基线与其模型的未来迭代进行比较。 这使他们能够获得有关其模型表现如何的经验数据 今天,并根据未来的改进检测性能的任何下降。
此外,该工具允许研究人员迭代和改进他们的 针对不同危害的缓解措施。 例如,在Microsoft,我们正在使用此工具来迭代不同的 产品的版本(及其元提示),以便我们可以更有效地 防止及时注入攻击。
Microsoft Learn 有一个关于 AI Red Team 的专用页面。
查看我们的文档以获取更多信息 关于如何安装 PyRIT, 我们的操作指南, 以及更多,以及我们的 demos 文件夹。
本项目可能包含项目、产品或服务的商标或徽标。 授权使用 Microsoft 商标或徽标受 Microsoft 商标和品牌准则的约束,并且必须遵循这些准则。 在此项目的修改版本中使用 Microsoft 商标或徽标必须 不引起混淆或暗示 Microsoft 赞助。 任何对第三方商标或徽标的使用均受这些第三方的 政策。