大模型训练过程中面临的安全风险主要包括数据投毒攻击、提示词注入攻击、越狱攻击等。数据投毒攻击是指攻击者在模型训练数据集中掺入少量恶意样本,导致模型在训练过程中“中毒”,输出攻击者预设的恶意内容。提示词注入攻击则是通过在输入中添加特定的短语或词汇来控制模型的决策过程,甚至让模型泄露内部提示词。越狱攻击则是通过精心设计的提示词诱导大模型生成违规内容,绕过安全防线。
为了应对这些安全威胁,可以采取以下措施:
评估数据集构建:构建包含多个维度的数据集,进行系统性的安全评估,包括偏见评估、毒性识别、隐私泄露评估、对抗攻击评估等。
评估方法设计:采用自动化评估、人工评估以及人机协同评估等方法,确保评估的全面性和准确性。
内部防御:在训练前进行数据过滤,训练中进行监督微调,训练后进行安全提示推理,提升模型自身的安全性。
外部防御:在大模型与用户交互的过程中,通过基于检测和基于改写的防御机制来加强外部的安全防线。
大模型训练过程中可能面临的隐私和数据安全问题包括:
数据隐私泄露:在大模型的训练、输出和应用过程中,数据隐私泄露是一项关键风险。训练阶段需要大量标注数据,这些数据可能包含用户的个人敏感信息,如果处理不当,个人信息可能会被暴露。此外,数据集可能被不当地共享,增加了被内部人员滥用的风险。
模型滥用和非法利用:大模型一旦遭到篡改、破坏、泄露或者非法利用,将对国家安全、公共利益以及个人、组织合法权益造成极大损害。攻击者可以利用大模型生成虚假信息、伪造电子邮件和聊天记录,实施商业电子邮件妥协(BEC)或社交工程攻击,以窃取敏感信息或资金。