观前提示：由于内容较杂，因此，使用AI工具进行总结。

阿里版

总述

大模型安全研究范畴|500

自身安全部分

大模型自身安全框架

一、大模型自身安全框架

安全目标
- 训练数据安全可信：确保数据不泄露、无偏见、未被篡改，真实反映客观世界。
- 算法模型安全可靠：保障模型在复杂场景下的鲁棒性、准确性，避免因技术局限或攻击导致错误输出。
- 系统平台安全稳定：防范系统漏洞、框架缺陷及插件风险，确保服务连续性。
- 业务应用安全可控：确保应用目标符合法规伦理，防止滥用或恶意使用。
安全属性
- 核心属性：真实性、多样性、准确性、机密性、可问责性、可预测性、公平性、透明性、可解释性、合规性、可靠性、可控性、鲁棒性。
- 关键要求：覆盖数据质量、模型性能、伦理合规等多维度。
保护对象
- 系统：大模型软硬件组件（服务器、框架、算法等）。
- 数据：训练数据、测试数据、运行时输入数据。
- 用户：自然人、法人或其他交互实体。
- 行为：用户与模型的交互操作及系统间调用行为。
安全措施
- 分层实施：覆盖训练数据、算法模型、系统平台、业务应用四个层面。

二、分层安全措施

1. 训练数据安全措施

数据合规获取
- 渠道管控：互联网公开数据需遵循非侵入性原则，用户数据需授权同意；交易数据需签署协议；自研数据需明确权利归属。
- 人员培训：定期开展合规培训，提升法律意识。
数据标注安全
- 流程管理：制定清晰任务规则，分角色管理标注人员（执行、审核、监督）。
- 环境安全：使用安全标注工具，实施访问控制与操作审计。
- 质量控制：全量或抽样核验，及时纠错。
数据集安全检测
- 违法不良数据检测：文本（NLP、语义识别）、多媒体（图像 / 语音识别）、代码（特征码扫描）。
- 多样性检测：来源、特征、分布维度分析（如 K-S 检验、聚类分析）。
- 投毒污染检测：比较投毒数据与正常数据差异，结合模型训练过程分析。
- 隐私检测：标识符匹配、正则表达式结合上下文分析。
数据增广与合成
- 数据增广：基础技术（几何 / 像素变换）、高级技术（动态增广、噪声注入）。
- 数据合成：基于 GAN、VAE 等生成对抗网络，未来可混合真实数据提升泛化能力。
安全对齐数据集构建
- 正样本数据：专家标注符合人类价值观的优质问答。
- 恶意样本数据：包含对抗攻击提示词，用于测试模型鲁棒性。
- 外部检索对齐数据：基于法律 / 道德标准约束回复，缓解幻觉。

2. 算法模型安全措施

模型内生安全评测
- 鲁棒性评测：分布外鲁棒性（Flipkart、DDXPlus）与对抗鲁棒性（AdvGLUE、ANLI）。
- 幻觉评测：基于事实一致性（TruthfulQA、HalluQA）及不确定性估计。
- 偏见评测：统计敏感属性概率（WINOGENDER、BOLD）。
模型鲁棒性增强
- 提示词安全增强：语义增强（任务描述、少样本学习）、结构增强（位置调整、特殊符号标记）。
- 对抗样本输入增强：构建含干扰信息的训练数据，提升抗干扰能力。
模型 “幻觉” 缓解
- 检索增强生成（RAG）：一次性 / 迭代 / 事后检索外部知识，提升准确性。
- 有监督微调（SFT）：通过多轮对话数据优化上下文一致性。
- 思维链技术（CoT）：生成推理过程，提升逻辑性。
- 价值对齐技术：基于人工反馈（RLHF）或 AI 反馈（RLAIF）的强化学习。
模型偏见缓解
- 训练阶段：对抗性训练、损失函数优化、参数冻结或节点移除。
- 推理阶段：调整输入关键词分布或模型权重。
模型可解释性提升
- 局部可解释：特征属性分析（SHAP、LIME）、Transformer 结构分析（注意力权重）。
- 全局可解释：基于探针的高层次表征分析、机制可解释（神经元映射关系）。

3. 系统平台安全措施

系统安全加固保护
- 开发机制：制定安全编码规范，嵌入安全管控流程，定期审计与培训。
- 供应链安全：分析开源组件依赖，跟踪更新补丁，选择可信供应商。
- 安全测试：静态代码分析、功能测试、接口测试、模糊测试、渗透测试。
- 应急响应：预案制定、实时监控、漏洞修复、演练优化。
- 访问控制：身份验证、权限分级、API 安全策略、黑名单机制。
大模型插件安全保护
- 输入检测：验证输入格式 / 类型，过滤敏感信息，防范提示注入。
- 功能最小化：限制插件权限与数据访问范围，审计异常调用。
- 权限管控：最小权限原则，人工审核特权操作（如删除邮件）。
- 供应链审核：审查插件供应商安全措施，使用 SCA 工具检测第三方组件漏洞。

4. 业务应用安全措施

输入输出安全保护
- 风险检测：基于敏感词库和分类模型拦截违法内容。
- 敏感回复：人工配置或训练安全回复模型处理敏感话题。
- 违规改写：对不安全输出进行安全改写，提升服务体验。
生成信息标识
- 显式水印：文字、Logo、背景音等形式，显著位置标注。
- 隐式水印：图像（变换域 / 模板水印）、视频（时序水印）、音频（回声 / 扩频水印）及文件头信息嵌入。
账号恶意行为风控
- 环境感知：设备指纹、接口防刷、异常环境检测。
- 账号安全：多因素认证、风险评分、异常登录监测。
- 风控机制：行为 / 生物识别、图灵测试、智能决策（放行 / 拦截）。
用户协议和隐私政策
- 用户协议：明确服务规则、知识产权归属、责任限制。
- 隐私政策：披露数据收集、使用、共享方式，保障用户权利。

大模型赋能安全

一、大模型赋能安全框架

核心目标
- 利用大模型的自然语言理解、知识整合、意图识别等能力，解决传统安全技术在隐蔽攻击检测、海量数据处理、高逼真内容识别等方面的瓶颈。
应用领域
- 网络安全：覆盖风险识别、防御、检测、响应、恢复全流程（IPDRR 框架）。
- 数据安全：自动化分类分级、违规处理检测。
- 内容安全：文本、图像 / 视频、音频的安全检测与过滤。
成熟度分级
- L1-L5：从技术研究到全面应用，当前多数场景处于 L1-L3 阶段（如漏洞挖掘 L1、安全问答 L4）。

二、大模型赋能网络安全

1. 风险识别（Identify）

智能威胁情报生成整合
- 技术：从 CVE 漏洞、暗网聊天等多源数据提取威胁指标（IP、URL、哈希值），关联分析生成全景威胁图。
- 应用：L3 级，安全厂商推出自然语言查询工具，提升威胁响应效率。
自动化漏洞挖掘
- 技术：分析源代码、二进制文件，通过异常行为检测和已知漏洞特征推测零日漏洞。
- 挑战：误报率高、解释性不足，L1 级，处于早期研究阶段。
自动化代码审计
- 技术：学习代码语法和错误案例，识别编码错误、逻辑漏洞并生成修复建议。
- 应用：L2 级，部分工具集成大模型，提升代码安全性。
智能网络攻击溯源
- 技术：重建攻击路径、绘制攻击者画像、追踪恶意基础设施（C&C 服务器）。
- 挑战：依赖情报库，L1 级，探索阶段。

2. 安全防御（Protect）

动态策略管理
- 技术：根据实时威胁动态调整防火墙、IPS 策略，优化策略集。
- 应用：L2 级，在防火墙策略管理中实现试点。

3. 安全检测（Detect）

自动化告警分析
- 技术：关联多源告警，还原攻击链，降噪并生成解释报告。
- 应用：L3 级，集成至 SOAR 平台，提升告警处理效率。
智能报文检测
- 技术：深度包检测识别异常流量（如 SQL 注入、APT 通信）。
- 应用：L3 级，企业探索部署，面临解释性与隐私挑战。
智能钓鱼邮件检测
- 技术：分析邮件内容（语气、链接一致性）及上下文，识别高隐蔽性钓鱼攻击。
- 应用：L2 级，提升用户体验和安全意识。
智能未知威胁检测
- 技术：识别新型恶意软件、零日漏洞利用、内部威胁等。
- 挑战：依赖数据质量，L1 级，实战效果待验证。

4. 安全响应（Response）

智能响应
- 技术：生成自动化响应脚本，联动安全工具（隔离设备、阻断流量）。
- 应用：L3 级，与 SOAR 平台结合实现部分事件自动处置。
智能事件报告生成
- 技术：自动收集日志、可视化攻击过程、分析根源并生成合规报告。
- 应用：L4 级，多数安全大模型支持，成为主流功能。

5. 安全恢复（Recovery）

智能应急策略制定
- 技术：基于知识库生成定制化恢复策略，覆盖隔离、取证、修复等步骤。
- 挑战：L1 级，实验室阶段，案例较少。

6. 其他场景

智能安全问答
- 技术：精准理解用户问题，提供实时更新的安全知识与解决方案。
- 应用：L4 级，集成至安全产品生态，支持多轮对话与上下文感知。

三、大模型赋能数据安全

自动化数据分类分级
- 技术：学习行业标准与样例数据，识别非结构化数据特征（如医疗病历、处方）。
- 应用：L2 级，提升分类准确率，减少人工标注成本。
自动化 APP (SDK) 违规处理个人信息检测
- 技术：分析隐私政策合规性，识别过度收集、未经同意使用等问题。
- 应用：L3 级，信通院 “智御” 大模型提供政策解读与合规指导。

四、大模型赋能内容安全

智能文本内容安全检测
- 技术：理解文本深层含义（隐喻、讽刺），识别极端言论、谩骂等。
- 应用：L2 级，社交媒体、电商平台广泛使用。
智能图像 / 视频内容安全检测
- 技术：识别色情、暴力、深度伪造内容，结合时序分析追踪动态违规。
- 应用：L2 级，用于直播弹幕审核、版权监测。
智能音频内容安全检测
- 技术：解析语音语义与情绪特征，识别辱骂、威胁及合成语音。
- 应用：L2 级，视频直播、在线游戏场景效果显著。

五、未来展望

短期影响
- 提升现有安全技术性能（如告警分析效率、内容检测准确率），减少人工依赖。
长期变革
- 大模型可能成为安全防护核心，从 “辅助工具” 进化为 “智能决策中枢”，重构安全工作模式（如自主调度安全工具）。
挑战与方向
- 技术：模型可解释性、对抗攻击鲁棒性、数据隐私保护。
- 治理：制定行业标准，推动跨领域协同，防范大模型被恶意利用。

清华版

三个关键维度：安全、可靠、可控

1. 安全性

数据安全：防范数据泄露、窃取、投毒。
模型安全：抵御对抗攻击、指令攻击、模型窃取。
系统安全：硬件、软件、框架及外部工具的安全防护。
内容安全：过滤毒性、偏见内容。
认知安全：防止虚假信息、意识形态渗透。
伦理安全：应对版权侵犯、教育诚信等问题。

2. 可靠性

鲁棒性：通过对抗训练提升模型抗干扰能力。
真实性：利用检索增强（RAG）、多智能体交互缓解幻觉。
价值对齐：基于人类反馈的强化学习（RLHF）确保价值观一致。

3. 可控性

可解释性：通过 CoT（思维链）、过程信息展示推理逻辑。
可标识与追溯：数字水印、AIGC 检测技术实现内容溯源。
指令遵循：优化指令数据集和强化学习策略，确保任务执行一致性。

云边端安全架构

大模型安全实践的技术方案

大模型安全性技术研究和进展

大模型的风险挑战与安全威胁

大模型面临六大安全风险维度：

数据安全风险
- 数据泄露：训练数据或用户交互数据被非法获取（如 ChatGPT 用户隐私泄露案例）。
- 数据窃取：模型记忆训练数据，攻击者通过特定提示提取敏感信息（如 GPT-2 生成隐私数据）。
- 数据投毒：恶意注入有毒数据引发后门攻击（如触发器攻击导致模型输出被操控）。

模型安全风险
- 对抗攻击：构造对抗样本导致模型误判（如 NLP 模型被拼写错误攻击绕过毒性检测）。
- 指令攻击：诱导模型输出有害内容（如 “越狱” 攻击要求模型忽视安全限制）。
- 模型窃取攻击：通过 API 调用逆向还原闭源模型参数（如 Sora、GPT-4 等模型知识产权风险）。
系统安全风险
- 硬件安全：GPU 侧通道攻击、Row Hammer 攻击篡改内存参数。
- 软件安全：开发工具链漏洞（如 Hugging Face 数据集恶意脚本注入）。
- 框架安全：深度学习框架漏洞（如 TensorFlow、PyTorch 的缓冲区溢出）。
- 外部工具安全：第三方插件引发提示注入攻击（如插件功能描述模糊导致错误调用）。
内容安全风险
- 毒性内容：训练数据残留攻击性言论（如 LLaMA2 中 0.2% 有毒文档）。
- 偏见内容：模型输出歧视性观点（如 GPT-4 对性别角色的刻板印象）。
认知安全风险
- 虚假信息生成：AIGC 伪造新闻、图像（如 Deepfake 技术用于诈骗）。
- 意识形态渗透：个性化互动可能潜移默化影响用户价值观。
伦理安全风险
- 版权侵犯：AI 生成作品引发知识产权争议（如 NFT 艺术作品《The First 5000 Days》纠纷）。
- 教育诚信危机：学生使用 AIGC 完成作业，破坏学术公平。

大模型的安全防御体系

针对内生、外生、衍生风险，构建三层防御技术：

内生安全防御技术（数据源、系统、模型）
- 数据安全：联邦学习、区块链实现隐私保护训练；数据脱敏、匿名化、加密。
- 模型安全：对抗训练提升鲁棒性；
  - 越狱防御

        - 模型生成优化：通过在模型的训练和部署过程中引入更加复杂的加密算法和鲁棒性强的深度学习技术，可以有效降低越狱攻击的成功概率
        - 系统提示优化：指大模型内置的提示词，在用户输入提示词后，系统提示词和用户输入的提示词进行拼接之后输入到大模型当中
        - 输入输出检测：通过监测模型输入和输出的内容，系统可以及时发现并拦截潜在的越狱攻击行为
    - 提示语泄露防御（泄露系统官方提示语，防止重要敏感数据泄露）![内生安全防御技术之提示语泄露](https://raw.githubusercontent.com/jjq0425/ImgBase/master/大模型安全研究报告2025/内生安全防御技术之提示语泄露.png)


        - 输入检测：在模型接收输入前，评估输入是否为攻击文本
        - 输入处理
        - 输出过滤
- **系统安全**：硬件漏洞修复（如内存纠错码）、软件供应链安全（如 Hugging Face 数据集安全审查）、框架漏洞补丁（如 TensorFlow 整数溢出修复）。![系统防御技术](https://raw.githubusercontent.com/jjq0425/ImgBase/master/大模型安全研究报告2025/系统防御技术.png)

外生安全防御技术（输入侧、调用链 | 应对来自大模型外部的各种攻击威胁）
- 隐私保护：差分隐私、成员推理攻击防御（正则化、Dropout）。
- 毒化数据防御：数据溯源、多模态安全策略。
- 后门攻击防御：神经元激活特征检测、模型微调清洗后门。
- 提示注入防御：对抗训练优化指令遵循能力。
衍生安全防御技术（偏应用）
- 偏见 / 毒性防范：预训练数据排毒、强化学习RLHF/RLAIF 对齐人类价值观、基于提示的安全控制干预推理过程
- 虚假新闻检测：基于困惑度、事实核查（如 Grover 模型）。
- 版权保护：训练数据水印（后门攻击检测）、生成内容溯源水印。
- 电信诈骗防御：
  - 深伪检测（空间域 / 频域分析）：分析图像或视频在像素级的差异，通过观察可见或不可见的伪影来区分真实内容和伪造内容
  - 主动防御（扰动注入）：将含有人脸的图像或视频上传至公共网络平台之前，对其进行细微的修改，比如加入特定的扰动或水印；其他模型伪造时因为收到扰动就会失效。

大模型可靠性技术研究和进展

对抗鲁棒性
- 数据增强：多模态数据增广（文本改写、图像几何变换、音频加噪）。
- 对抗训练：攻击函数生成对抗样本，提升模型抗干扰能力。
- 前置干预：检测恶意指令并拦截，避免安全风险。
真实性
- 幻觉缓解：
  - 训练阶段：知识图谱嵌入、RAG（检索增强生成）。
  - 推理阶段：CoT 提示、多智能体交互验证。
  - 后处理：事实核查、逻辑一致性校验。

价值对齐
- RLHF 技术：通过人类反馈优化生成策略，提升无害性、真实性。
- RLAIF 技术：AI 替代人类标注，降低成本但需平衡效果。

大模型可控性技术研究和进展

可解释性
- 过程信息展示：打印工作流 / 智能体执行步骤，辅助问题定位。
- CoT 提示：模型生成答案前展示推理逻辑，提升透明度。
- 内生机制分析：观测神经元权重变化，检测潜在风险认知。
可标识与可追溯
- 数字水印：不可见性与鲁棒性结合，实现内容溯源（如 AIGC 图片检测）。

- **AIGC 检测**：泛化性（多生成方式）、鲁棒性（抗传播干扰）、可解释性（标注篡改区域）。

指令遵循
- 监督微调：高质量指令数据集（如 Self-instruct 自动生成）。
  - 通过改写技术，可以进一步对指令进行同义词替换、风格迁移和知识迁移等操作，提升泛化性
- 强化学习优化：PPO/DPO 算法提升反馈效果，对抗训练增强鲁棒性。
- 指令优化：明确任务格式、分解复杂任务、多模态指令改写。

大模型安全评测技术研究和进展

评测挑战
- 全面性：覆盖多模态、多场景（如 Agent 应用）。
- 多样性：生成对抗样本（同义替换、风格迁移、诱导性提示）。
- 自动化：LLM-as-a-judger（如 PandaLM、JudgeLLM）替代人工研判。
评测技术
- 对抗样本生成：基于大模型机制构造攻击样本（如多轮交互诱导）。
- 自动化评估：结合传统模型与专用研判大模型，降低人工成本。
- 动态监测：上线后持续监控输出一致性、风险内容概率。

腾讯版

大模型安全框架

腾讯版安全框架

框架设计目标

全局性：覆盖数据处理、模型训练部署、应用落地全流程
实用性：提供可操作的安全技术方案
前瞻性：兼顾当前风险与未来潜在威胁

核心架构模块

生命周期管理
- 数据处理阶段：数据采集、清洗、存储
- 训练部署阶段：模型开发、优化、部署
- 应用落地阶段：API 调用、插件集成、用户交互
安全风险矩阵
- 数据层面：泄露、投毒、隐私暴露
- 模型层面：后门攻击、篡改、滥用
- 应用层面：提示注入、对抗攻击、内容违规
安全目标体系
- 数据安全：防泄露、防篡改、隐私保护
- 算法可信：可解释性、鲁棒性、无偏见
- 模型可控：安全审计、应急响应、权限管理
- 应用合规：内容过滤、风险评估、伦理对齐

关键技术措施

数据防泄露
- 数据识别和分类、数据监控、策略制定和执行、时间响应
问题数据清洗
数据隐私计算
- 差分隐私
- 同态加密
安全算法评测
- 建立评测机制，以攻促防
鲁棒性增强
- 改进算法训练方法、调整算法模型结构、丰富训练样本
模型后门监测
版权保护
- 水印
漏洞、供应链

安全实践案例

Prompt 安全检测平台

自动化攻击样本生成
- 风险提问生成：基于开源数据集微调专有安全风险大模型，结合 self-instruct 方法迭代生成多样性提问
- 攻击模板生成：
  - Prompt 注入攻击：多模板拼接、中英文翻译、重写变异
  - 对抗样本攻击：梯度信息优化后缀，集成多模型提升迁移性
    - 通过多次 query 的方式，提升攻击模版的攻击有效性。对于对抗样本攻击而言，基于开源大模型，通过借助模型的梯度信息，在多次迭代中优化风险提问后所添加的字符串后缀，使大模型的回答逐渐向目标回复（没问题、好的、以下是 ….）靠拢。
- 模板拼接：组合风险提问与攻击模板构建评估样本集

风险审核系统
- 多维度并行审核：
  - 相似度检索：匹配主流模型拒绝话术库
    - 当大模型在处理敏感话题或遇到不适当的输入时，通常会输出 “对不起”，“我只是一个 AI 助手” 等话术来表明拒绝提供输出
  - LLM 合规判定：定制 prompt 引导模型输出合规性结论
  - NER 模型检测：识别姓名 / 身份证号 / 地址等敏感信息
  - 黑词库匹配：覆盖网络安全特有风险关键词
评估指标体系
- 单模型：正确拒绝率（风险提问中安全响应比例）
- 多模型：Elo 评级系统计算模型安全性评分

大模型蓝军对抗演习

模拟黑客等攻击者

红蓝对抗体系
- 核心目标：模拟攻击者行为，验证防御体系有效性
- 覆盖范围：数据安全、攻击防护、应急响应全流程
腾讯混元大模型四轮演习
- 第一轮：基础设施安全（机器学习平台 / 算力平台）
- 第二轮：核心数据安全（训练数据 / 模型文件）
- 第三轮：安全策略验证（部署阶段安全措施）
- 第四轮：上线前风险收敛（模拟外部黑客攻击）
- 常态化演练：持续验证增量服务安全
攻击面分析框架
- 遵循 ATT&CK 框架，覆盖：
  - 边界突破：漏洞利用 / 钓鱼攻击
  - 横向移动：提权攻击 / 跳板隧道
  - 数据窃取：敏感文件获取 / 持久化驻留

大模型源代码保护

上线前防护措施
- 研发环境加固：
  - 制定安全研发规范并纳入考核
  - 统一代码仓库管理，限制开发模式
  - 开发机操作命令审计与大流量监控
  - 设置 IP 白名单与基线行为检测
- 链路安全审计：
  - 仓库访问权限分级管控
  - 异常访问行为实时告警
  - 敏感人群操作监控
  - 全渠道操作日志留存
- 服务端安全：
  - 存储服务器网络隔离
  - 漏洞扫描与基线配置检查
  - 基础设施容灾备份
上线后防护措施
- 客户端加固：反编译防护、代码混淆
- 业务接入层防护：
  - API 接口安全测试（SQL 注入 / XSS/SSRF）
  - 接口限频与账号封禁策略
  - 插件生态安全管理：
    - 插件调用频控策略
    - 隔离部署与环境沙盒化

基础设施安全防护

组件漏洞管理
- 构建机器学习风险组件库
- 统一软件源管理（官方镜像源）
- 运行时命令监控与阻断
推理部署安全
- 系统架构隔离：
  - 推理服务与前端逻辑分离
  - 内部协议最小化通信
- 基础安全防护：
  - DDoS 防护与 Web 应用防火墙
  - 高频调用限流策略
- 插件安全机制：
  - 插件描述审核与功能隔离
  - 动态加载与沙盒执行环境