如何应对生成式大模型「双刃剑」?之江实验室发布《生成式大模型安全与隐私白皮书》
机器之心发布
作者:之江实验室
(资料图片)
当前,生成式大模型已经为学术研究甚至是社会生活带来了深刻的变革,以 ChatGPT 为代表,生成式大模型的能力已经显示了迈向通用人工智能的可能性。但同时,研究者们也开始意识到 ChatGPT 等生成式大模型面临着数据和模型方面的安全隐患。
今年 5 月初,美国白宫与谷歌、微软、OpenAI、Anthropic 等 AI 公司的 CEO 们召开集体会议,针对 AI 生成技术的爆发,讨论技术背后隐藏的风险、如何负责任地开发人工智能系统,以及制定有效的监管措施。国内的生成式大模型技术也正在发展之中,但是同时也需要先对安全问题进行相应的分析以便双管齐下,避免生成式大模型这把双刃剑带来的隐藏危害。
为此,之江实验室基础理论研究院人工智能与安全团队首次全面总结了 ChatGPT 为代表的生成式大模型的安全与隐私问题白皮书,希望能够为从事安全问题研究的技术人员指明方向,同时也为 AI 相关政策的制定者提供依据。
白皮书链接: https://github.com/xiaogang00/white-paper-for-large-model-security-and-privacy生成式大模型的发展与重要应用
这份白皮书首先总结了 ChatGPT 与 GPT4 等生成式大模型的发展历程,以及其带来的各种令人惊叹的能力和社会变革、社会应用等。作者列举了 ChatGPT 和 GPT4 出现之前的 GPT-1、GPT-2、GPT-3、Google Bert 等模型的特点以及缺点,这些缺点与 ChatGPT 和 GPT4 的强大能力形成了对比;并且,ChatGPT 和 GPT4 之后又涌现了一大批的模型,包括 LLaMa、Alpaca、文心一言、通义千问等,它们的出现使得在人机交互、资源管理、科学研究、内容创作等应用领域出现了新的、强有力的工具。但同时也出现了包括数据安全,使用规范、可信伦理、知识产权以及模型安全方面的问题。
数据安全问题
白皮书提出,数据的安全和隐私是 ChatGPT 及 GPT4 等生成式大模型使用和研发过程中一个极为重要的问题,并从「显式」和「隐式」两个方面对其进行了分析。
在显式的信息泄漏中,首先,ChatGPT 等生成式大模型的训练数据在不经意间被转换成了生成内容,其中就包括了敏感和隐私的个人信息如银行卡账号、病例信息等。此外,ChatGPT 的数据安全和隐私隐患还体现在它对于对话框内容的存储,当用户在和 ChatGPT 互动时,他们的信息会以某些形式被记录和存储下来。
白皮书还提出了之前被大家忽略的隐式信息泄漏问题。首先,ChatGPT 体现出的数据安全和隐私的隐患是它可能通过对对话框数据的收集进行广告推荐,以及收集对话框数据进行推荐或者其他的下游机器学习任务,且 ChatGPT 有时候可能也会生成虚假的信息,以此来诱导用户泄漏一系列的数据。
使用规范问题
在白皮书中,作者提到 ChatGPT 和 GPT4 等生成式大模型强大的理解和生成能力虽然为我们的生活和生产带来了很多的便利,但是同时也存在更多的机会被恶意使用。在没有规范约束的情况下,恶意使用将带来很多的社会性问题。
其一,ChatGPT 和 GPT-4 等模型的强大能力使得某些别有用心的人想要将其作为违法活动的工具。例如用户可以利用 ChatGPT 来编写诈骗短信和钓鱼邮件,甚至开发代码,按需生成恶意软件和勒索软件等,而无需任何编码知识和犯罪经验。
其二,ChatGPT 和 GPT4 等生成式大模型没有把不同地区的法律规范考虑在内,在使用和输出的过程中可能会违反当地法律法规,因此需要一个强而有力的当地监管系统来检测其使用是否与当地法律法规相冲突。
其三,对于一些游离于安全和危险之间的灰色地带,ChatGPT 等生成式大模型的安全能力还没有得到增强。例如 ChatGPT 可能会输出一些诱导性的语句,包括跟抑郁症患者沟通时候可能会输出某些语句导致其产生轻生的心态。
可信伦理问题
ChatGPT 等生成式大模型以问答形态存在于社会层面,但其回复往往存在不可信,或者无法判断其正确的问题,会有似是而非的错误答案,甚至对现有社会伦理产生冲击。
白皮书指出,首先 ChatGPT 等生成式大模型的回复可能是在一本正经地胡说八道,语句通畅貌似合理,但其实完全大相径庭,目前模型还不能提供合理的证据进行可信性的验证。例如,ChatGPT 可能会对一些历史、科学、文化等方面的问题回答错误或者与事实相悖,甚至可能会造成误导或者误解,需要用户有自己的鉴别能力。
ChatGPT 等生成式大模型的伦理问题也在白皮书中被详细讨论。即使 OpenAI 等研发机构已经使用 ChatGPT 本身生成了他们的道德准则,但其中的道德准则是否符合我国国情的基本价值观原则,尚未有定论。作者提出其中存在传播有害意识形态、传播偏见和仇恨、影响政治正确、破坏教育公平、影响国际社会公平、加剧机器取代人类的进程、形成信息茧房阻碍正确价值观形成等问题。
知识产权问题
ChatGPT 等生成式大模型凭借强大的语言处理能力和低廉使用成本给社会方方面面带来便利的同时,也存在侵权的问题,对现存版权法体系带来冲击。例如 ChatGPT 生成的作品可能存在著作权争议:ChatGPT 虽然有着出色的语言处理能力,但是即使生成的作品符合知识产权的全部形式要求,ChatGPT 也无法成为著作权的主体,这是因为著作权主体享有权利的同时也要承担对应的社会责任,而 ChatGPT 只能作为用户强大的辅助生产力工具,它无法自主创作,更不要谈享有权利、履行义务的主体要求。
而且 ChatGPT 等生成式大模型仍无法独立创作,更没有自主思维和独立思考的能力,因而,ChatGPT 根据用户的输入生成的内容不符合作品「独创性」的要求。ChatGPT 用于模型训练的数据来自于互联网,不论多么高级的模型训练算法必然涉及到对现有智力成果的引用、分析、处理等,必然存在对他人合法知识产权的侵犯问题。
模型安全问题
从攻防技术角度来看,ChatGPT 等生成式大模型也存在着模型安全的问题。ChatGPT 本质上是基于深度学习的一个大型生成模型,也面临着人工智能安全方面的诸多威胁,包括模型窃取以及各种攻击引起输出的错误(例如包括对抗攻击、后门攻击、prompt 攻击、数据投毒等)。
例如,模型窃取指的是攻击者依靠有限次数的模型询问,从而得到一个和目标模型的功能和效果一致的本地模型。而 ChatGPT 已经开放了 API 的使用,这更为模型窃取提供了询问入口。又比如,ChatGPT 和 GPT4 作为一个分布式计算的系统,需要处理来自各方的输入数据,并且经过权威机构验证,这些数据将会被持续用于训练。那么 ChatGPT 和 GPT4 也面临着更大的数据投毒风险。攻击者可以在与 ChatGPT 和 GPT4 交互的时候,强行给 ChatGPT 和 GPT4 灌输错误的数据,或者是通过用户反馈的形式去给 ChatGPT 和 GPT4 进行错误的反馈,从而降低 ChatGPT 和 GPT4 的能力,或者给其加入特殊的后门攻击。
安全与隐私建议
最后,白皮书中对于安全和隐私等问题都进行了相应的建议,可作为之后技术研究者们的方向和政策制定者们的参考依据。
在保护隐私建议方面,白皮书提出要在增强原始数据中高敏感隐私信息的辨别和传播限制;在数据收集过程中利用差分隐私等技术进行隐私保护;对于训练数据的存储进行数据加密形式的安全保护;在模型训练过程中使用安全多方计算,同态加密以及联邦学习等技术进行数据隐私和安全保护;建立数据隐私评估和模型保护与安全认证体系,并且保护下游应用的隐私。
在模型安全问题的建议上,白皮书提出对安全与隐私信息的检测模型的训练;让不同的模型适用于不同国家的法律条款;以及针对各种对抗攻击进行防御性训练。
在模型合规问题上,白皮书提出进行可信输出的度量,信任值评价,增加模型输出的版权信息的查询功能。
总结来说,AI 生成式大模型的发展离不开安全,因此其安全问题将作为下一个技术点,值得众多研究者去攻克。而安全也是社会稳定的保障,有关部门需要尽快进行政策的制定。
THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com
标签:
相关推荐:
最新新闻:
- 如何应对生成式大模型「双刃剑」?之江实验室发布《生成式大模型安全与隐私白皮书》
- 信达证券:欧美充电桩市场步入快速发展期 市场空间大
- 华工科技涨停-全球短讯
- 「基层工作者」洛江区双阳街道:以真心真情服务民情
- 意法半导体携手三安光电,推进中国碳化硅生态系统发展
- 【全球快播报】今日79股涨停 主要集中在电子、传媒等行业
- 国金证券:能拿好地且快速去化的房企更加受益
- 护航高考丨逐梦追光 听见青春
- 安溪以优秀文艺宣传贯彻党的二十大精神 快报
- 今天高考返程和赴考时段广州有雷阵雨 世界快看
- 焦点观察:和胜股份:在项目研发前沿领域一直与宁德时代深度合作
- 焦点速递!雷雨大风+冰雹+龙卷!黑龙江省发布龙卷预警
- 6月7日东营益盛醋酸丁酯报价下调 每日热文
- 收盘丨A股三大指数走势分化,创业板指跌1.61% 前沿热点
- 塔克拉玛干沙漠腹地最大集中式光伏电站正式并网发电
- 信达证券:欧美充电桩市场步入快速发展期 市场空间大_全球快消息
- 赴考满分!送考满分!高考首日,好的故事开头
- 世界通讯!外交部:对卡霍夫卡水电站堤坝被破坏表示严重关切
- 美国波音787型“梦想客机”因生产缺陷将再次延迟交付
- 中美军事部门对话暂时没有恢复,美方呼吁沟通,外交部回应
- 【全球独家】中国芯片稳步推进,美国芯片行业已现颓势,韩荷认清了现实
- 荷兰警方在泽兰省截获多批可卡因
- 【世界时快讯】江苏黄沙港特大桥顺利合龙 预计6月底完工
- 艾迈斯欧司朗推出适用于舱内传感的新款红外VCSEL发射器,新增可靠的内置人眼安全功能
- 全球观点:吉尔吉斯斯坦安全部门拘留30余名组织骚乱嫌疑人
- 售价9.49万元起 2024款雪佛兰科鲁泽上市
- 大型公安缉毒犯罪题材电影《破毒行动》南浔开机
- 世界今头条!灵山县气象台发布雷电黄色预警信号【III级/较重】【2023-06-07】
- 硬核科技论 | 终于加上激光雷达 全新蔚来ES6黑科技升级盘点_环球观焦点
- 天天快报!塞尔达传说王国之泪你是萨派还是科派任务怎么做[多图]
- 焦点速看:哪吒汽车参加9月慕尼黑车展 未来推重量级全球车
- 新款特斯拉Model 3实车曝光:全新大灯、辅助驾驶能力再升级
- 文润河北 冀望未来 河北展区精彩亮相第十九届深圳文博会
- 世界速讯:汽车经销商进入深度调整期
- 新资讯:市场指导价52.18万元 奥迪S4 Avant正式上市
- 今日热议:提醒!端午节假期首日火车票明日开售
- 天天消息!欧洲有多少个国家首都有水?
- 亲民实用的国民MPV 试驾一汽奔腾M9 天天视点
- 最新进度从埔高速土建工程完成96%,计划今年内建成通车!
- 护航夺魁之路!中建二局华南公司爱心助考在行动_全球快消息
- 柳江区气象台发布雷电黄色预警信号【III级/较重】【2023-06-07】|天天热门
- 广州地铁嘉禾望岗站扶梯发生断裂,回应:已检修完毕,无人员受伤
- 千元级真甜品游戏显卡 蓝戟photon系列618超值入手 观点
- 直击2023高考:爱心护考队伍不断扩大-每日焦点
- 苹果Vision Pro成本仅1500美元
- 每日快讯!第六届木偶皮影优秀剧(节)目展演在江苏扬州闭幕
- 环球热头条丨加拿大野火烟雾飘向美国,自由女神像和帝国大厦被笼罩
- A股收评 | A股连续下挫 创业板指大跌1.7% 生长激素龙头长春高新(000661.SZ)午后放量跳水
- 全球观察:“中原文化走进中菲人文之驿”活动在马尼拉举行
- 中国网络文学亚洲传播效果凸显
- 世界看热讯:茌平区气象台发布高温橙色预警【Ⅱ/严重】【2023-06-07】
- 天天快资讯丨减轻房租压力!在济南租房可以享受这些公积金利好
- 【快播报】“自贡”沿滩区创新“三三四”工作法打造民族团结进步示范街区
- 进销存软件免费版
- 无乃尔是过与 翻译无乃_无乃尔是过与 翻译|每日观点
- 大义凛然形容谁_大义凛然可以形容哪些人
- 【全球新要闻】总面积除以总价等于什么_总价等于什么
- 美议员借军舰事件称要“坚决反对中国的欺凌”,外交部驳斥!
- 欧盟将对实施“经济勒索”的国家加征关税是针对中国?外交部回应
- 中美军事部门对话暂时没有恢复,美方呼吁沟通,外交部回应 天天快看点
- 数百名非法移民冲过美墨边境大桥 墨西哥边防人员被撞倒
- 北向资金净买入25.1亿元 交易活跃度下降 每日热门
- 信达证券:欧美充电桩市场步入快速发展期 市场空间大
- 今亮点!延长PoE距离:解锁以太网供电的最大范围
- matlab中find 函数如何使用
- 公司问答丨协鑫能科:多原因删减电池级碳酸锂募投项目 后续围绕三大业务继续发力 世界讯息
- 今日关注:中国长城收年报问询函 要求说明业绩对政府补助是否存在重大依赖
- 天天观天下!澳优出售新西兰奶粉工厂 买方为伊利全资子公司
- 吉林信托增资至31.5亿元 2022年报姗姗来迟 营收“斩腰”缩水
- 岱勒新材:公司5月份处于满产状态,产销量已创历史新高-每日视点
- 华铭智能:公司产品主要使用于新能源汽车等设备,但未来可以扩大和开发市场领域
- 宇邦新材:公司的MBB焊带和SMBB焊带分别主要适用于P型的PERC电池和N型的Topcon电池 热头条
- 天士力:安体威颗粒获药物临床试验批准通知书
- 【全球新视野】中航电子(600372)6月7日主力资金净卖出6599.28万元
- 天天热讯:宁沪高速(600377)6月7日主力资金净买入663.37万元