• 简体版 | 繁體版
  • 联系我们
  • 加入我们
  • 关于我们
  •  
  • 首页
  • 快讯
  • 价值号
  • 视频
  • 专题
  • 滚动
  • 入驻价值号
  • 碳链APP
    微信公众号

    扫码下载App

  • 登录
  • 微信公众号

    微信公众号

导航
  • 首页
  • 快讯
  • 区块链+
  • 价值号
  • 视频
  • 专题
  • DeFi优选
碳链价值APP
专注服务于金融科技和区块链
立即打开

以AI对抗AI,大模型安全的“进化论”

AIcore •  2023-09-14
大模型需要“医生”和“保镖”。

文丨刘雨琦

编|王一粟

来源丨光锥智能

“互联网时代,我们是更危险,还是更安全?”

2016年,互联网正值高速发展之际,电梯广告经常出现这几个大字,两行标语,从病毒木马到网络诈骗,对于安全的思考、安全防范技术的建立一直在与科技发展赛跑。同样,大模型时代发展的早期,也引发了许多安全考量。

英特网被发明的十年后,互联网防护技术和产业链才开始补齐,而参考了过去几十年的经验,在大模型诞生后不到半年的时间里,围绕着模型安全、数据安全、内容安全的讨论,就已经不绝于耳。

最近一周,在上海外滩大会、浦江创新论坛、国家网安周等场合,产学研界针对于大模型应用落地所带来的数据安全问题(包括数据投毒、信息泄露、版权风险等)、模型安全问题(模型本身的安全漏洞、恶意利用等)、内容安全问题(生成内容包含违规、违法、色情等敏感信息等)、AI 伦理问题等进行了一系列的讨论。

如何为大模型保驾护航?

国内一些安全厂商,如360、蚂蚁、深信服、奇安信、山石科技等都在积极研发大模型安全技术。

大模型需要“医生”和“保镖”

大模型作为新物种的诞生,在训练过程中要有安全监控,在大模型最后推向市场的时候,也需要一次“质检”,质检后流入市场,需要可控的使用方式,这都是解决安全问题的宏观思路。

无论是通用大模型还是面向垂直领域的行业大模型,目前来看,模型安全的保护主要分为三个部分:

一是训练阶段的数据问题:如果数据采集不当、存在偏见或标签错误、数据被投毒,都有可能导致大模型产生错误输出、存在歧视或其他负面影响,同时数据在应用的过程中,也要面临数据泄露、隐私曝光等风险;

二是模型本身的可控问题:模型的可靠性、稳定性、鲁棒性等都需要进行检验,例如此前有用户构造针对性语句对模型进行诱导,大模型可能生产带有欺诈、歧视、政治倾向等风险内容;

三是大模型在实际场景中应用的安全问题:在实际的使用过程中,不同用户群体的交互和应用都需要谨慎评估,尤其是金融、医疗等领域对模型输出的正确性要求极高,如果应用不当,一石就容易激起千层浪。

多位业内人士向光锥智能表示:“模型安全需要一体化的技术防护体系,单独某一环节的把控解决不了根本问题。”

参考互联网安全的发展路径,诞生了诸多“病毒查杀”软件公司,一般检测、定位问题往往是第一步。

光锥智能了解到,蚂蚁的“蚁天鉴”,包含了大模型安全检测平台“蚁鉴2.0”、大模型风险防御平台“天鉴”,覆盖了从检测到治理到防御的全链条。蚁鉴2.0可对大模型进行多维度的安全扫描,检查存在的数据安全隐患、内容风险点等问题。相当于站在“黑产”角度,通过智能攻击对抗技术,自动生成数百万的诱导性问题,对生成式大模型进行诱导式问答,找出大模型的弱点和漏洞。

从技术的角度来看,蚁鉴采用了最新的“对抗智能”技术路线,使用智能对抗技术不断向大模型“投射问题”,观察模型生成的回答,判断是否存在风险。通过持续“拷问”,就像医生多次询问病人症状,平台可以盘查解析大模型的健康状况。

通过生成对抗样本,开发检测对抗样本的算法系统,来提升大模型安全性,已经成为一种主流技术趋势。在行业中,已有OpenAI、谷歌、微软、英伟达等一众巨头公司将对抗智能技术运用到其产品和服务中。

比如,在这种技术思路下,多伦多大学研发的 CleverHans 系统,就像一个专门设计来考验防盗系统的“小偷”,它会故意添加一些小干扰,来试图欺骗 AI 安防系统。在正常情况下,AI 系统可以准确识别“小猫”的图片,但 CleverHan 系统偏要在“小猫”图片上轻微修改几个像素点,给 AI 营造一种这是一张小狗图片的假象。假如,AI 系统被愚弄过去,那就代表其存在安全漏洞。

相比检测“诊断”,“防治”也非常重要。蚂蚁天鉴就像一个智能盾牌,可以防患于未然。通过智能分析用户提问意图来进行防御,天鉴可以拦截某些试图诱导模型生成敏感内容的恶意问题,确保外部恶意诱导无法传入大模型。同时,对模型输出内容实施二次过滤,自动识别风险信息并进行干预,确保大模型输出的内容符合规范。

更重要的是,数据问题是模型安全的源头,中国信通院云计算与大数据研究所主任石霖曾在一场学术交流会上分享道:“现在有非常多安全厂商采取了安全举措,包括对训练数据做一些清洗,对输入输出内容做过滤,另外还有监测和鉴别等安全防控措施。”

这需要防御平台作用在数据源头,针对数据源头有毒、模型深度黑盒不可控等问题。蚂蚁集团大安全机器智能部内容算法总监祝慧佳介绍,目前,天鉴正在尝试通过数据去毒、对齐训练、可解释性研究等手段保障模型安全。

用魔法打败魔法,以AI对抗AI

数字世界里和人眼世界里的内容特征是不一样的。

随着大模型时代的到来,其强大能力也为安全防护技术的变革提供了新的思路。“用 AI 的力量来对抗 AI ”已经成为一个热点方向。

事实上,对抗攻防思路并不是模型安全的专属。早在上个十年,面对种种安全威胁,人工智能领域就逐步形成了“以攻测防——以攻促防——攻防一体化”的安全理念,通过模拟各类攻击场景,不断探索模型和系统的弱点,以此推动算法和工程端的防御能力加强。

只不过,以往安全防护主要依赖机器学习算法模型,这需要大量专业数据知识积累,且面临知识盲区和小样本冷启动不及时的问题。利用大模型技术,可以实现更智能化的安全防控。

这体现在几个方面。一是大模型能够提供智能安全“参谋”。基于海量文本进行预训练的大模型,可以成为优秀的“参谋”,对症提出适当的分析和防御策略。比如,通过简单的自然语言描述,可以快速分析安全局势,提出应对措施建议,辅助安全团队规划解决方案。这类似于一个智能安全“小助手”。

从产业界的现状来看,AI 安全与否如何评测,目前尚缺乏一套易用和标准化的评测工具和规则。

这也是大模型防御中能够补充的另一方面,通过大模型技术学习风险知识和标准规则来提升 AI 对于风险的认知理解能力,以实现用大模型对抗大模型来进行极速防御和快速冷启动的目的。

大模型安全既要“快“也要“慢”,这两个逻辑并不矛盾。在大模型安全防御方面要“快”,要能快速检测、查杀病毒,确保服务无毒害,这其中就包括了“数据去毒”、“安全护栏”、“AIGC风险检测”几个关键防御部分;而在大模型安全可信方面要“慢”,要能长远的、体系的保证整个系统环境的可控、可信,这其中就包括了“安全测评”、“解构可控”、“人类社会共治”等方面。

以文本安全为例,大模型可以基于安全标准规则、风险领域知识和历史风险样本,进行训练,提升模型对于风险标准和内容的理解力,从而实现对风险检测能力的提升。也采用大模型生成能力结合安全知识图谱,来构造攻击样本持续迭代优化检测模型。

一位安全专家表示:“相比人工收集的有限样本,大模型生成的海量多样化样本,将使安全检测模型'见多识广',更快适应新的威胁方式。”

这项技术,也被蚂蚁应用在了AIGC内容检测中。祝慧佳提及道:“AIGC深度伪造检测,也是采用以攻测防,以攻促防的思路,通过不同方式、不同风格、不同生成模型来进行生成,建立近千万的深度伪造数据,训练模型快速分辨内容是机器生成还是人工生成,从而实现泛化性和鲁棒性更好的检测模型。”

针对AIGC在运用过程中引发的问题,国际上也已经有头部公司开始着手布局。

OpenAI此前表示,考虑在ChatGPT中添加数字水印技术,以降低模型被滥用带来的负面影响;谷歌在今年的开发者大会中表示,将确保公司的每一张 AI 生成图片都内嵌水印;今年1月初,英伟达也发布了一款名为FakeCatcher的软件,以查出视频中的人脸是否为深度伪造。

回顾互联网发展史,混乱和高速发展往往是一对“孪生兄弟”,而正是在网络安全产业化趋于成熟后,互联网才真正迎来了百花齐放的应用落地。

同样,模型安全并不只是某一家安全厂商的任务,而是当安全科技形成了可信围栏后,大模型技术才真的能“飞入寻常百姓家”。

“大模型是非常复杂的问题,伦理、数据、训练等领域的复杂度都是前所未有的,是一个新领域,也是摆在所有人面前的一个命题。蚂蚁'蚁天鉴'在大模型安全视角上做了一些探索,但目前还有很多问题待研究解决,比如回答的内容真实性和准确性等难题,它还需要不断迭代,不断完善,需要全社会共同协作努力。”祝慧佳最后说道。

展开全文
打开碳链价值APP  查看更多精彩资讯
声明:本文内容为作者独立观点,不代表碳链价值立场,且不构成任何投资理财建议。
0 0
大模型

扫一扫,分享到微信

相关推荐

AI无法颠覆化学?谷歌DeepMind论文被爆重大缺陷,伦敦大学教授建议撤回Nature 滚动

AI无法颠覆化学?谷歌DeepMind论文被爆重大缺陷,伦敦大学教授建议撤回Nature

AI之势 2023-12-07 滚动
AI大模型
DeepMind团队最新的Nature论文,竟出现严重的漏洞。
小模型也可以「分割一切」,Meta改进SAM,参数仅为原版5% 滚动

小模型也可以「分割一切」,Meta改进SAM,参数仅为原版5%

机器之心 2023-12-07 滚动
AILLM大模型
对于 2023 年的计算机视觉领域来说,「分割一切」(Segment Anything Model)是备受关注的一项研究进展。
开源,可商业化!性能比Stable Difusion强2.5倍 滚动

开源,可商业化!性能比Stable Difusion强2.5倍

AIGC开放社区 2023-12-07 滚动
大模型Playground
文生图平台Playground宣布开源Playground V2版本,允许商业化

碳链快讯更多 ›

2023-12-07

陈茂波:港府将防止区块链金融风险被带到内地

2023-12-07

a16z 分享 2024 年加密行业值得关注的趋势,包括模块化技术栈等

2023-12-05

贝莱德获得 10 万美元比特币现货 ETF 种子资金

2023-11-30

MicroStrategy 再次购买 16130 枚BTC

2023-11-28

李家超:打击无牌加密平台

2023-11-28

港媒:HOUNAX或为香港本地公司玖币

2023-11-28

Spartan Group管理合伙人:做空头寸信息遭某大型加密交易所泄露

2023-11-28

WSJ:美SEC仍在寻找 Binance.US 存在潜在欺诈的证据

2023-11-28

Vitalik 最新博文阐述对技术乐观主义、AI 风险、区块链和密码学等的看法

2023-11-28

美法官:赵长鹏必须暂时留在美国

2023-11-26

Arthur Hayes:美元流动性增长预示比特币将迎来上行趋势

2023-11-25

Web3 数字银行 iPeakoin 完成近千万美元 A 轮融资,真格基金领投

2023-11-24

盈透证券已获香港零售客户虚拟资产交易的许可

2023-11-23

新加坡拟于2024年中禁止加密货币保证金或杠杆交易,以遏制散户投机

2023-11-22

Mt. Gox 受托人:将很快开始向债权人偿还债务

2023-11-22

Sam Altman 将回归 OpenAI 担任 CEO

2023-11-21

武汉市公安局破获10亿元虚拟币洗钱案

2023-11-20

连线杂志:OpenAI 近 500 名员工威胁辞职,除非董事会辞职并重新任命 Sam Altman

2023-11-20

Tether 自愿冻结与国际犯罪集团有关的 2.25 亿枚被盗 USDT

2023-11-20

OKX已向香港证监会递交虚拟资产交易平台牌照申请

2023-11-20

华尔街日报:Bullish 已收购 CoinDesk 100% 的股权

2023-11-20

彭博:现货比特币 ETF 市场规模有望达 1000 亿美元

2023-11-20

微软 CEO:OpenAI 创始人 Sam Altman 和 Brockman 将加入微软

2023-11-20

Sam Altman回归失败 OpenAI董事会聘请Emmett Shear担任CEO

2023-11-20

彭博社:OpenAI 临时 CEO Mira Murati 计划重新聘请前 CEO Sam Altman 和前总裁 Greg Brockman

2023-11-20

知情人士:在被 OpenAI 罢免前,Altman 正寻求为新的人工智能芯片公司筹集资金

2023-11-19

OpenAI董事会:原则上同意Sam Altman回归

2023-11-19

彭博社:OpenAI 投资者正向公司董事会施压,要求恢复 Sam Altman 的 CEO 职务

2023-11-18

京港互联网 3.0 产业中心暨青年人才基地揭牌

2023-11-18

美 SEC 已推迟对 Global X 与富兰克林邓普顿的现货比特币 ETF 做出决定的日期

2023-11-18

OpenAI 罢免 Sam Altman 的 CEO 与董事会职务

2023-11-18

富达已向美 SEC 提交以太坊现货 ETF 申请

2023-11-17

BitGo 首席执行官:美 SEC 很有可能拒绝一系列现货比特币ETF申请

2023-11-17

日本金融厅批准推出ODX数字证券交易所START

2023-11-17

资产管理公司 WisdomTree 再次提交现货比特币 ETF 的 S-1 招股说明书

2023-11-17

德国联邦议员支持比特币作为该国法定货币

2023-11-16

贝莱德向 SEC 提交以太坊现货 ETF 的 S-1 招股说明书,任命 Coinbase 为托管人

2023-11-16

NYDFS 更新加密货币上市和退市指导方针,要求更为严格

2023-11-16

Arthur Hayes:随着美元流动性上升,比特币等风险资产将继续飙升

2023-11-15

新加坡金管局宣布扩大资产代币化计划

2023-11-15

蚂蚁集团首次披露海外发展数据 营收规模同比增长300%

2023-11-15

马来西亚砂拉越州与蚂蚁数科达成合作 发展数字政务服务应用

2023-11-15

彭博分析师:美 SEC 将在 21 日前对 3 个比特币现货 ETF 申请作出决策

2023-11-15

Cathie Wood:Gary Gensler的政治野心是现货比特币ETF受阻的原因

2023-11-15

Blockchain.com完成1.1亿美元E轮融资,估值较去年3月下跌超50%

2023-11-15

港股上市公司博雅互动拟斥资 9000 万美元购买比特币和以太坊

2023-11-14

加密货币集团 BGX 战略投资 OSL 母公司 BC 科技集团,认购约 7.1 亿港元新股

2023-11-14

渣打银行推出区块链部门 Libeara,拟代币化新加坡元政府债券基金

2023-11-14

韩国金管局成立虚拟资产上币工作组,并开始规划加密货币上市和退市指南

2023-11-14

港股上市公司博雅互动寻求股东授权以在一年内购买至多 1 亿美元加密货币

推荐文章

  • Web3人的AI世界观:砸不掉我饭碗,干不掉我工作

    2023-09-12

  • 诺奖得主席勒:AI改变了投资格局

    2023-09-09

  • 蚂蚁集团蒋国飞:数字信任是加速产业协作的关键变量

    2023-09-08

  • 外滩大会今日开幕 近20位「两院」院士、诺贝尔奖和图灵奖得主齐聚

    2023-09-07

  • 富达投资:ETH未来走向通胀还是通缩

    2023-09-05

价值号更多 ›

深潮TechFlow
深潮TechFlow
文章: 305
  • 金融巨头PayPal入局,稳定币战事迎来转折点?
  • Apple 的 Vision Pro 问世, Web3 元宇宙面临复苏还是毁灭?
  • a16z 安德森:为什么 AI 会拯救世界
区块链骑士
区块链骑士
文章: 1415
  • 90%的欧洲议会议员支持更严格的Crypto资产税收框架
  • 华尔街巨头富兰克林·邓普顿加入现货BTC ETF大战,能否打破SEC的批准僵局?
  • Facebook前高管:BTC将引领世界走出「传真支付时代」
TinTinLand
TinTinLand
文章: 72
  • 数字主权的起点,DID 如何为数字居民提供身份入口?
  • TinTin Web3 动态精选:以太坊基金会推出 EELS、Arbitrum Stylus 上线
  • Friend.tech 火不过半个月,Web3 社交还有戏吗?
换一批

热门标签

新基建 比特币 以太坊 DeFi 共识对话 区块链+ 美联储 央行数字货币 加密衍生品 AI 云计算 大数据 5G 政策 交易所 稳定币 电子支付 Libra 算力产业 联盟链 公链 区块链 加密货币 Nervos Cosmos EOS BCH STO 数字货币 去中心化

邮件订阅

及时、全面、专业、准确的资讯与数据,致力于为区块链爱好者以及数字货币投资者提供最好的服务。

App内打开

邮件订阅

及时、全面、专业、准确的资讯与数据,致力于为区块链爱好者以及数字货币投资者提供最好的服务。

Moshou

碳链价值是集资讯、行情、数据于一身的区块链信息服务平台,我们追求及时、全面、专业、精确的资讯与数据,致力于为区块链创新者和数字货币投资者提供优质的服务。

关于我们 加入我们 联系我们 隐私条款
微信公众号

扫一扫关注微信公众号

Copyright © 2018-2020 碳链价值 京ICP备18046423号
下载碳链App

下载碳链App

微信公众号

微信公众号

微信公众号

微信公众号

打赏文章作者

支付宝打赏二维码 支付宝扫一扫打赏
微信打赏二维码 微信扫一扫打赏

# 热门搜索 #

CBDC 比特币 DeFi 以太坊 区块链