• 简体版 | 繁體版
  • 联系我们
  • 加入我们
  • 关于我们
  •  
  • 首页
  • 快讯
  • 价值号
  • 视频
  • 专题
  • 深度
  • 入驻价值号
  • 碳链APP
    微信公众号

    扫码下载App

  • 登录
  • 微信公众号

    微信公众号

导航
  • 首页
  • 快讯
  • 区块链+
  • 价值号
  • 视频
  • 专题
  • DeFi优选
碳链价值APP
专注服务于金融科技和区块链
立即打开

OpenAI重磅推出多模态GPT-4

阿法兔研究笔记阿法兔研究笔记  •  2023-03-15
这是OpenAI在扩大深度学习方面的最新里程碑。

作者:OpenAI&TheVerge&Techcrunch

翻译 &分析:阿法兔

  • GPT-4可以接受图像和文本输入,而GPT-3.5只接受文本。
  • GPT-4在各种专业和学术基准上的表现达到 "人类水平"。例如,它通过了模拟的律师考试,分数约为应试者的前10%。
  • OpenAI花了6个月的时间,利用从对抗性测试项目以及ChatGPT中获得的经验,反复调整GPT-4,结果在事实性、可引导性和可控制方面取得了 "史上最佳结果"。
  • 在简单的聊天中,GPT-3.5和GPT-4之间的区别可能微不足道,但是当任务的复杂性达到足够的阈值时,区别就出来了,GPT-4比GPT-3.5更可靠,更有创造力,能够处理更细微的指令。
  • GPT-4能对相对复杂的图像进行说明和解释,比如说,从插入iPhone的图片中识别出一个Lightning Cable适配器(下文有图片)。
  • 图像理解能力还没有向所有OpenAI的客户开发,OpenAI正在与合作伙伴Be My Eyes进行测试。
  • OpenAI承认,GPT-4并不完美,仍然会对事实验证的问题产生错乱感,也会犯一些推理错误,偶尔过度自信。
  • 开源OpenAI Evals,用于创建和运行评估GPT-4等模型的基准,同时逐个样本检查其性能。

官宣文档

OpenAI已经正式推出GPT-4,这也是OpenAI在扩大深度学习方面的最新里程碑。GPT-4是大型的多模态模型(能够接受图像和文本类型的输入,给出文本输出),尽管GPT-4在许多现实世界的场景中能力不如人类,但它可以在各种专业和学术基准上,表现出近似人类水平的性能。

例如:GPT-4通过了模拟的律师考试,分数约为全部应试者的前10%。而相比之下,GPT-3.5的分数大约是后10%。我们团队花了6个月的时间,利用我对抗性测试项目以及基于ChatGPT的相关经验,反复对GPT-4进行调整。结果是,GPT-4在事实性(factuality)、可引导性(steerability)和拒绝超范围解答(非合规)问题( refusing to go outside of guardrails.)方面取得了有史以来最好的结果(尽管它还不够完美)

在过去两年里,我们重构了整个深度学习堆栈,并与Azure合作,为工作负荷从头开始,共同设计了一台超级计算机。一年前,OpenAI训练了GPT-3.5,作为整个系统的首次 "试运行",具体来说,我们发现并修复了一些错误,并改进了之前的理论基础。因此,我们的GPT-4训练、运行(自信地说:至少对我们来说是这样!)空前稳定,成为我们首个训练性能可以进行提前准确预测的大模型。随着我们继续专注于可靠扩展,中级目标是磨方法,以帮助OpenAI能够持续提前预测未来,并且为未来做好准备,我们认为这一点,对安全至关重要。

我们正在通过ChatGPT和API(您可以加入WaitList)发布GPT-4的文本输入功能,为了能够更大范围地提供图像输入功能,我们正在与合作伙伴紧密合作,以形成一个不错的开端。我们计划开源OpenAI Evals,也是我们自动评估AI模型性能的框架,任何人都可以提出我们模型中的不足之处,以帮助它的进一步的改进。

能力

在简单闲聊时,也许不太好发现GPT-3.5和GPT-4之间的区别。但是,当任务的复杂性达到足够的阈值时,它们的区别就出来了。具体来说,GPT-4比GPT-3.5更可靠,更有创造力,能够处理更细微的指令。

为了理解这两个模型之间的差异,我们在各种不同的基准上进行了测试,包括模拟最开始那些为人类设计的考试。通过使用最新的公开测试(就奥数和AP等等考试)还包括购买2022-2023年版的练习考试来进行,我们没有为这类考试给模型做专门的培训,当然,考试中存在很少的问题是模型在训练过程中存在的,但我们认为下列结果是有代表性的。

我们还在为机器学习模型设计的传统基准上,对GPT-4进行了评估。GPT-4大大超过现有的大语言模型,与多数最先进的(SOTA)模型并驾齐驱,这些模型包括针对基准的制作或额外的训练协议。

由于现有的大多数ML基准是用英语编写的,为了初步了解其他语言的能力,我们使用Azure Translate将MMLU基准:一套涵盖57个主题的14000个选择题,翻译成了各种语言。在测试的26种语言中的24种语言中,GPT-4的表现优于GPT-3.5和其他大模型(Chinchilla,PaLM)的英语表现,这种优秀表现还包括类似拉脱维亚语、威尔士语和斯瓦希里语等等。

我们一直在内部使用GPT-4,发现它对支持、销售、内容审核和编程等功能会产生很大影响,我们还在用它来协助人类评估AI的输出,这就是我们调整战略的第二阶段的开始。

视觉输入

GPT-4可以接受文本和图像的提示语(prompt),这与纯文本设置平行。比如说,可以让用户指定任何视觉或语言任务,它可以生成文本输出(自然语言、代码等),给定的输入包括带有文字和照片的文件、图表或屏幕截图,GPT-4表现出与纯文本输入类似的能力。此外,还可以应用在为纯文本语言模型开发的测试时间技术,包括少数几个镜头和CoT的Prompting,不过目前图像输入仍然属于研究方面预览,没有像C端公开产品。

下列图片显示了一个 "Lightning Cable "适配器的包装,有三个面板。

面板1:一个带有VGA接口(通常用于电脑显示器的大型蓝色15针接口)的智能手机插在其充电端口。

面板2:"Lightning Cable "适配器的包装上有一张VGA接口的图片。

面板3:VGA连接器的特写,末端是一个小的Lightning连接器(用于为iPhone和其他苹果设备充电)。

这张图片的搞笑性质来自于将一个大的、过时的VGA连接器插入一个小的、现代的智能手机充电端口..因此看起来很荒谬

通过在一套狭窄的标准学术视觉基准上,对GPT-4的性能进行评估,并且对它进行预览。然而,这些数字并不能代表其的能力范围,因为我们发现,这个模型能够处理很多的新的和令人兴奋的任务,OpenAI计划很快发布进一步的分析和评估数字,以及对测试时间技术效果的彻底调查结果。

可控制的AI

我们一直在努力实现关于定义AI行为那篇文章中,所概述的计划的每个方面,包括AI的可控制性。与经典的ChatGPT个性的固定言语、语气和风格不同,开发者(很快就是所有的ChatGPT用户)现在可以通过在 "系统 "消息中描述这些方向,来规定自己的AI的风格和任务。系统消息允许API用户在范围内,大幅对用户体验进行定制,我们将持续改进。

局限性

尽管能力惊人,不过,GPT-4仍存在与早期GPT模型类似的限制。最重要的是,它仍然不是完全可靠的(比如说,它会对事实产生 "幻觉",并出现推理错误)。在使用语言模型的输出时,特别是在高风险的情况下,应该非常小心谨慎,比如说:需要人类审查,完全避免高风险的使用)以及需要与特定的使用案例的需求相匹配。

尽管各类情况仍然存在,但相较于以前的模型(这些模型本身也在不断改进),GPT-4大大减少了hallucinations(意思是网络错觉,这里指的是一本正经的胡说八道)。在我们内部的对抗性事实性评估中,GPT-4的得分比我们最新推出的GPT-3.5高40%。

可控制的AI

GPT-4的基础模型在这项任务中只比GPT-3.5略胜一筹;然而,在经过RLHF的后期训练后(应用我们对GPT-3.5使用的相同过程),却有很大差距。该模型在其输出中会有各种偏差,我们在这些方面已经取得了进展,但仍有更多工作要做。根据我们最近的博文,我们的目标是使我们建立的人工智能系统具有合理的默认行为,以反映广泛的用户价值观,允许这些系统在广泛的范围内被定制,并获得公众对这些范围的意见。

GPT-4通常缺乏对其绝大部分数据截止后(2021年9月)发生的事件的了解,也不会从其经验中学习。它有时会犯一些简单的推理错误,这似乎与这么多领域的能力不相符,或者过于轻信用户的明显虚假陈述。有时它也会像人类一样在困难的问题上失败,例如在它产生的代码中引入安全漏洞。GPT-4也可能在预测中自信地犯错。

风险和缓解措施

我们一直在对GPT-4进行迭代,使其从训练开始就更加安全,保持一致性,我们所做的努力包括预训练数据的选择和过滤、评估,邀请专家参与,对模型安全改进、监测,以及执行。

GPT-4与过去的模型会存在类似风险,如生产有害的建议、错误代码或不准确的信息。然而,GPT-4的额外能力还导致了新的风险面。为了明确这些风险的具体情况,我们聘请了50多位来自人工智能对接风险、网络安全、生物风险、信任和安全以及国际安全等领域的专家对该模型进行对抗性测试。他们的参与,使我们能够测试模型在高风险领域的行为,这些领域需要专业知识来评估。来自这些领域专家的反馈和数据,为我们缓解和改进模型提供了依据。比如说,我们已经收集了额外的数据,以提高GPT-4拒绝有关如何合成危险化学品的请求的能力。

GPT-4在RLHF训练中加入了一个额外的安全奖励信号,通过训练模型来拒绝对此类内容的请求,从而减少有害产出(由我们的使用指南定义)。奖励是由GPT-4的分类器提供的,它能够判断安全边界和安全相关提示的完成方式。为了防止模型拒绝有效的请求,我们从不同的来源(例如,标记的生产数据,人类的红队,模型生成的提示)收集多样化的数据集,并在允许和不允许的类别上应用安全奖励信号(存在正值或负值)。

与GPT-3.5相比,我们的缓解措施大大改善了GPT-4的许多安全性能。与GPT-3.5相比,我们将模型对非法内容的请求的响应倾向,降低了82%,而GPT-4对敏感请求(如医疗建议和自我伤害)的响应符合我们的政策的频率提高了29%

总的来说,我们的模型级干预措施增加了诱发不良行为的难度,但仍然存在 "越狱 "的情况,以产生违反我们使用指南的内容。随着人工智能系统的 风险的增加,在这些干预措施中实现极高的可靠性将变得至关重要。目前重要的是,用部署时间的安全技术来补充这些限制,如想办法监测。

GPT-4和后续模型,很有可能对社会产生正面或者负面的影响,我们正在与外部研究人员合作,以改善我们对潜在影响的理解和评估,以及建立对未来系统中可能出现的危险能力的评估。我们将很快分享我们对GPT-4和其他人工智能系统的潜在社会和经济影响的更多思考。

训练过程

和之前的GPT模型一样,GPT-4基础模型的训练是为了预测文档中的下一个单词,并使用公开的数据(如互联网数据)以及我们授权的数据进行训练。这些数据是来自于极大规模的语料库,包括数学问题的正确和错误的解决方案,弱的和强的推理,自相矛盾的和一致的声明,以及种类繁多的意识形态和想法。

因此,当被提示有一个问题时,基础模型可以以各种各样的方式作出反应,而这些反应可能与用户的意图相去甚远。为了使其与用户的意图保持一致,我们使用人类反馈的强化学习(RLHF)对模型的行为进行微调。

注意,模型的能力似乎主要来自于预训练过程,RLHF并不能提高考试成绩(如果不主动努力,它实际上会降低考试成绩)。但是对模型的引导来自于训练后的过程--基础模型需要及时的工程,甚至知道它应该回答问题。

可预测的扩展

GPT-4项目的一大重点是建立一个可预测扩展的深度学习栈。主要原因是,对于像GPT-4这样非常大的训练运行,做大量的特定模型调整是不可行的。我们对基础设施进行了开发和优化,在多种规模下都有非常可预测的行为。为了验证这种可扩展性,我们提前准确地预测了GPT-4在我们内部代码库(不属于训练集)中的最终损失,方法是通过使用相同的方法训练的模型进行推断,但使用的计算量要少10000倍。

我们认为,准确预测未来的机器学习能力是安全的一个重要部分,相对于其潜在的影响,它没有得到足够的重视(尽管我们已经被几个机构的努力所鼓舞)。我们正在扩大我们的努力,开发一些方法,为社会提供更好的指导,让人们了解对未来系统的期望,我们希望这成为该领域的一个共同目标。

开放式人工智能评估

我们正在开源OpenAI Evals,这是我们的软件框架,用于创建和运行评估GPT-4等模型的基准,同时逐个样本检查其性能。我们使用Evals来指导我们模型的开发(包括识别缺点和防止退步),我们的用户可以应用它来跟踪不同模型版本(现在将定期推出)和不断发展的产品集成的性能。例如,Stripe已经使用Evals来补充他们的人工评估,以衡量他们的GPT驱动的文档工具的准确性。

因为代码都是开源的,Evals支持编写新的类来实现自定义的评估逻辑。然而,根据我们自己的经验,许多基准都遵循一些 "模板 "中的一个,所以我们也包括了内部最有用的模板(包括一个 "模型分级Evals "的模板--我们发现GPT-4有令人惊讶的能力来检查自己的工作)。一般来说,建立一个新的评估的最有效方法是将这些模板中的一个实例化,并提供数据。我们很高兴看到其他人能用这些模板和Evals更广泛地建立什么。

我们希望Evals成为一个分享和众包基准的工具,最大限度地代表广泛的故障模式和困难任务。作为后续的例子,我们已经创建了一个逻辑谜题评估,其中包含GPT-4失败的十个提示。Evals也与实现现有的基准兼容;我们已经包括了几个实现学术基准的笔记本和一些整合CoQA(小的子集)的变化作为例子。

我们邀请大家使用Evals来测试我们的模型,并提交最有趣的例子。我们相信Evals将成为使用和建立在我们的模型之上的过程中不可或缺的一部分,我们欢迎直接贡献、问题和反馈。

ChatGPT Plus

ChatGPT Plus用户将在chat.openai.com上获得有使用上限的GPT-4权限。我们将根据实际需求和系统性能调整确切的使用上限,但我们预计容量将受到严重限制(尽管我们将在接下来的几个月里扩大和优化)。

根据我们看到的流量模式,我们可能会为更高的GPT-4使用量引入一个新的订阅级别,我们也希望在某个时候提供一定数量的免费GPT-4查询,这样那些没有订阅的用户也可以尝试。

API

要获得GPT-4的API(使用与gpt-3.5-turbo相同的ChatCompletions API),请可以去OpenAI的官方Waitlist上注册。

结论

我们期待着GPT-4成为一个有价值的工具,通过为许多应用提供动力来改善人们的生活。还有很多工作要做,我们期待着通过社区的集体努力,在这个模型的基础上进行建设、探索和贡献,共同对模型进行改进。

参考文献:1.https://openai.com/research/gpt-4

2.https://techcrunch.com/2023/03/14/openai-releases-gpt-4-ai-that-it-claims-is-state-of-the-art/

3.https://www.theverge.com/2023/3/14/23638033/openai-gpt-4-chatgpt-multimodal-deep-learning

展开全文
打开碳链价值APP  查看更多精彩资讯
声明:本文内容为作者独立观点,不代表碳链价值立场,且不构成任何投资理财建议。
0 2
ChatGPT

扫一扫,分享到微信

相关推荐

OpenAI、Google和Meta 的当红华人研究员们在想些什么|对话实录 滚动

OpenAI、Google和Meta 的当红华人研究员们在想些什么|对话实录

AIGC 2023-09-24 滚动
AIAIGCChatGPT
座无虚席,过道里也站满了人。甚至你会以为这是一场明星见面会。但这其实是一场在硅谷进行的GenAI大会的其中一个圆桌。
GPT-4也难逃“反转诅咒”!新研究发现:大模型存在推理缺陷,知道“A是B”推不出“B是A” 滚动

GPT-4也难逃“反转诅咒”!新研究发现:大模型存在推理缺陷,知道“A是B”推不出“B是A”

AIcore 2023-09-24 滚动
ChatGPT大模型
大模型明知道“你妈是你妈”,却答不出“你是你妈的儿子”??
清华用7个ChatGPT模拟《狼人杀》,结果出乎意料! 滚动

清华用7个ChatGPT模拟《狼人杀》,结果出乎意料!

AI之势 2023-09-24 滚动
AIChatGPT大模型
为了验证大语言模型的沟通、规划、反思等拟人化能力,清华研究团队发布了一篇名为“探索大语言模型在交流游戏中的应用:《狼人杀》实验”的研究论文。

碳链快讯更多 ›

2023-09-25

香港证监会将公布4份虚拟资产名单和1份专门针对可疑虚拟资产交易平台的名单

2023-09-25

香港证监会将于今日 11:00 就虚拟资产交易平台事宜会见传媒

2023-09-25

南华早报:JPEX 暴雷可能成为香港历史上最大的金融欺诈案

2023-09-24

天桥资本创始人:比特币ETF将成为华尔街标配产品

2023-09-22

比特大陆已与全球客户达成超过1GW的水冷矿场合作

2023-09-22

比特大陆发布蚂蚁矿机 S21系列 最高算力达335T

2023-09-22

比特大陆同意向Core Scientific投资5390万美元以扩大合作关系

2023-09-22

Tim Draper推出新加密风投工作室Draper Goren Blockchain

2023-09-22

彭博社:Silver Point、 Attestor Capital 等基金公司已购入价值逾 2.5 亿美元的 FTX 债务

2023-09-22

香港特首:JPEX 事件证明虚拟资产发牌制度是正确的

2023-09-22

彭博社:币安9月比特币交易量下降或与零手续费促销停止活动有关

2023-09-21

新加坡银行加强对持有「投资相关」护照的中国客户的检查

2023-09-21

Tether 购买价值 4.2 亿美元的 Nvidia 芯片并计划出租给 AI 初创公司

2023-09-21

MakerDAO 再次增加 1.91 亿美元 RWA 资产,RWA 总资产超 29 亿美元

2023-09-21

黄立成以 1100 万枚 APE 购买 Yuga 资产并发行代币 DAM提案获投票通过

2023-09-21

美国众议院金融服务委员会批准禁止发行 CBDC 的法案

2023-09-21

PayPal 旗下 Venmo 钱包将上线 PYUSD

2023-09-20

新加坡最大洗钱案涉案金额扩大至 24 亿新元,价值近 0.4 亿新元的加密货币被扣押

2023-09-20

香港证监会:JPEX从未就可能作出的牌照申请与我们接洽

2023-09-20

梁瀚璟:基于 RWA、STO 进行融资可能会是 Web3 杀手级产品

2023-09-20

香港投委会:区块链不记名交易很难追回

2023-09-20

斯坦福大学承诺退还 FTX 债务人 550 万美元捐款

2023-09-20

菲律宾 SEC 与美 SEC 合作打击加密货币欺诈

2023-09-20

香港警方披露 JPEX 运作模式和推广手法,公布五大涉嫌诈骗元素

2023-09-20

CoinEx 攻击事件已造成超 7000 万美元损失,将全额赔偿受损用户

2023-09-20

灰度向 SEC 提交新的以太坊期货 ETF

2023-09-20

a16z crypto 开放加密创业学校 2024 年春季申请,将向每家参与公司投资 50 万美元以换取 7% 的股权

2023-09-19

Chainalysis :印度在全球加密货币交易量中排名第二

2023-09-19

香港警方:考虑将涉 JPEX 案逾 6000 万港元财产充公,会在必要时刻将涉案离港艺人引渡回港

2023-09-19

上海:加快布局区块链等事关未来的关键基础设施

2023-09-19

区块链技术公司 Jiritsu 完成 1020 万美元融资,并推出资产代币化平台 Tomei RWA

2023-09-19

肯尼亚官员:美国当局阻止肯尼亚拘留 Worldcoin 的几位高管

2023-09-19

区块链医疗数据交换平台 Briya 完成 1150 万美元 A 轮融资,Team8 领投

2023-09-19

时尚领域元宇宙数据分析商 Geeiq 完成 820 万美元 A 轮融资,YFM Equity Partners 领投

2023-09-19

Circle:USDC 已上线 Polkadot 主网

2023-09-19

香港特首:JPEX事件反映出监管的重要性

2023-09-19

邱达根阐述「三箭三圆」:香港政府正考虑推动土地代币化、加快推出零售数码港元等

2023-09-18

蚂蚁集团计划退出对A&T Capital的投资

2023-09-18

香港警方拘捕 JPEX 推广网红林作,或因涉嫌 JPEX 案件

2023-09-18

美国众议院金融服务委员会将批准两项法案,干涉数字美元的发行

2023-09-15

香港金管局:虚拟资产机构使用「银行」陈述或涉嫌犯罪

2023-09-15

日本政府允许初创企业用虚拟货币筹集资金

2023-09-15

香港加密交易所Meex与ZA银行签署战略合作协议

2023-09-15

MakerDAO 再次增加1亿美元 RWA 资产,RWA 总资产达 27.13 亿美元

2023-09-15

港媒:香港警方正调查 JPEX 是否涉及刑事成分

2023-09-15

迪拜与香港将加强金融合作,涵盖金融科技和虚拟资产等领域

2023-09-15

香港议员回应Vitalik:香港政策和法律不会朝令夕改

2023-09-15

加密市场8月份资金流出达550亿美元,重大事件造成的影响正在上升

2023-09-14

Vitalik Buterin:寻求在香港发展的项目方应考虑当地的政策持续性

2023-09-14

彭博社:如果获批,美国现货比特币ETF可能发展成1000亿美元的市场

推荐文章

  • 奇妙的化学反应:Euler Finance 被黑分析

    2023-03-15

  • Silvergate、SVB 和 Signature 倒下,加密公司寻找银行「后浪」

    2023-03-15

  • OpenAI正式推出多模态GPT-4

    2023-03-15

  • GPT-4震撼发布:多模态大模型,直接升级ChatGPT、必应,开放API,游戏终结了?

    2023-03-15

  • 硅谷银行倒闭震动加密货币,分散式金融与集中式金融争论再起

    2023-03-14

价值号更多 ›

达瓴智库
达瓴智库
文章: 154
  • ETH在上海升级期间表现如何?
  • 熊末牛初:Ordinals是福是祸?
  • 加密天使:深度剖析Dapps的应用类型和未来潜力
区块链骑士
区块链骑士
文章: 1290
  • Web3游戏一定需要数字资产吗?
  • 详解EulerFinance被盗2亿美元黑客事件始末
  • 关于元宇宙与Web3的13个专业预测
TinTinLand
TinTinLand
文章: 31
  • Blur 狂潮下,NFTFi 如何解困 NFT 流动性难题
  • AI 与 Web3,前沿技术融合创新的价值有多大
  • 加密发展指南:Web3安全技术和安全机制
换一批

热门标签

新基建 比特币 以太坊 矿业 DeFi 共识对话 区块链+ 研报 美联储 央行数字货币 无限QE 加密衍生品 AI 云计算 大数据 5G 政策 交易所 稳定币 电子支付 Libra 算力产业 联盟链 公链 区块链 加密货币 Nervos Cosmos EOS STO

邮件订阅

及时、全面、专业、准确的资讯与数据,致力于为区块链爱好者以及数字货币投资者提供最好的服务。

App内打开

邮件订阅

及时、全面、专业、准确的资讯与数据,致力于为区块链爱好者以及数字货币投资者提供最好的服务。

Moshou

碳链价值是集资讯、行情、数据于一身的区块链信息服务平台,我们追求及时、全面、专业、精确的资讯与数据,致力于为区块链创新者和数字货币投资者提供优质的服务。

关于我们 加入我们 联系我们 隐私条款
微信公众号

扫一扫关注微信公众号

Copyright © 2018-2020 碳链价值 京ICP备18046423号
下载碳链App

下载碳链App

微信公众号

微信公众号

微信公众号

微信公众号

打赏文章作者

支付宝打赏二维码 支付宝扫一扫打赏
微信打赏二维码 微信扫一扫打赏

# 热门搜索 #

CBDC 比特币 DeFi 以太坊 区块链