• 简体版 | 繁體版
  • 联系我们
  • 加入我们
  • 关于我们
  •  
  • 首页
  • 快讯
  • 价值号
  • 视频
  • 专题
  • 深度
  • 入驻价值号
  • 碳链APP
    微信公众号

    扫码下载App

  • 登录
  • 微信公众号

    微信公众号

导航
  • 首页
  • 快讯
  • 区块链+
  • 价值号
  • 视频
  • 专题
  • DeFi优选
碳链价值APP
专注服务于金融科技和区块链
立即打开

GPT-4震撼发布:多模态大模型,直接升级ChatGPT、必应,开放API,游戏终结了?

机器之心机器之心  •  2023-03-15
谁能革得了 ChatGPT 的命?

谁能革得了 ChatGPT 的命?现在看来还是 OpenAI 自己。

在 ChatGPT 引爆科技领域之后,人们一直在讨论 AI「下一步」的发展会是什么,很多学者都提到了多模态,我们并没有等太久。今天凌晨,OpenAI 发布了多模态预训练大模型 GPT-4。

GPT-4 实现了以下几个方面的飞跃式提升:强大的识图能力;文字输入限制提升至 2.5 万字;回答准确性显著提高;能够生成歌词、创意文本,实现风格变化。

「GPT-4 是世界第一款高体验,强能力的先进AI系统,我们希望很快把它推向所有人,」OpenAI 工程师在介绍视频里说道。

似乎是想一口气终结这场游戏,OpenAI 既发布了论文(更像是技术报告)、 System Card,把 ChatGPT 直接升级成了 GPT-4 版的,也开放了 GPT-4 的 API。

另外,微软营销主管在 GPT-4 发布后第一时间表示:「如果你在过去六周内的任何时候使用过新的 Bing 预览版,你就已经提前了解了 OpenAI 最新模型的强大功能。」是的,微软的新必应早就已经用上了GPT-4。

接下来,就让我们细细品味这场震撼发布。

GPT-4:我 SAT 考 710,也能当律师

GPT-4 是一个大型多模态模型,能接受图像和文本输入,再输出正确的文本回复。实验表明,GPT-4 在各种专业测试和学术基准上的表现与人类水平相当。例如,它通过了模拟律师考试,且分数在应试者的前 10% 左右;相比之下,GPT-3.5 的得分在倒数 10% 左右。

OpenAI 花了 6 个月的时间使用对抗性测试程序和 ChatGPT 的经验教训对 GPT-4 进行迭代调整 ,从而在真实性、可控性等方面取得了有史以来最好的结果。

在过去的两年里,OpenAI 重建了整个深度学习堆栈,并与 Azure 一起为其工作负载从头开始设计了一台超级计算机。一年前,OpenAI 在训练 GPT-3.5 时第一次尝试运行了该超算系统,之后他们又陆续发现并修复了一些错误,改进了其理论基础。这些改进的结果是 GPT-4 的训练运行获得了前所未有的稳定,以至于 OpenAI 能够提前准确预测 GPT-4 的训练性能,它也是第一个实现这一点的大模型。OpenAI 表示他们将继续专注于可靠的扩展,进一步完善方法,以帮助其实现更强大的提前预测性能和规划未来的能力,这对安全至关重要。

OpenAI 正在通过 ChatGPT 和 API(有候补名单)发布 GPT-4 的文本输入功能。图像输入功能方面,为了获得更广泛的可用性,OpenAI 正在与其他公司展开合作。

OpenAI 今天还开源了 OpenAI Evals,这是其用于自动评估 AI 模型性能的框架。OpenAI 表示此举是为了让所有人都可以指出其模型中的缺点,以帮助 OpenAI 进一步改进模型。

有趣的是,GPT-3.5 和 GPT-4 之间的区别很微妙。当任务的复杂性达到足够的阈值时,差异就会出现 ——GPT-4 比 GPT-3.5 更可靠、更有创意,并且能够处理更细微的指令。为了了解这两个模型之间的差异,OpenAI 在各种基准和一些为人类设计的模拟考试上进行了实验。

OpenAI 还在为机器学习模型设计的传统基准上评估了 GPT-4。GPT-4 大大优于现有的大型语言模型,以及大多数 SOTA 模型:

许多现有的机器学习基准测试都是用英语编写的。为了初步了解 GPT-4 在其他语言上的能力,研究团队使用 Azure Translate 将 MMLU 基准 —— 一套涵盖 57 个主题的 14000 个多项选择题 —— 翻译成多种语言。在测试的 26 种语言的 24 种中,GPT-4 优于 GPT-3.5 和其他大语言模型(Chinchilla、PaLM)的英语语言性能:

就像许多使用 ChatGPT 的公司一样,OpenAI 表示他们内部也在使用 GPT-4,因此 OpenAI 也在关注大型语言模型在内容生成、销售和编程等方面的应用效果。OpenAI 还使用 GPT-4 辅助人们评估 AI 输出,这也是 OpenAI 对其策略的第二阶段。OpenAI 既是 GPT-4 的开发者,也是使用者。

GPT-4:我能玩梗图

GPT-4 可以接受文本和图像形式的 prompt,新能力与纯文本设置并行,允许用户指定任何视觉或语言任务。

具体来说,它在人类给定由散布的文本和图像组成的输入的情况下生成相应的文本输出(自然语言、代码等)。在一系列领域 —— 包括带有文本和照片的文档、图表或屏幕截图上 ——GPT-4 展示了与纯文本输入类似的功能。此外,它还可以通过为纯文本语言模型开发的测试时间技术得到增强,包括少样本和思维链 prompt。

比如给 GPT-4 一个长相奇怪的充电器的图片,问为什么这很可笑?

GPT-4 回答道,VGA 线充 iPhone。

格鲁吉亚和西亚的人均每日肉类消费,算平均数:

看起来,现在的 GPT 已经不会在计算上胡言乱语了:

还是太简单,那直接让它做题,还是个物理题:

GPT-4 看懂了法语题目,并完整解答:

GPT-4 可以理解一张照片里「有什么不对劲的地方」:

GPT-4 还可以量子速读看论文,如果你给它 InstructGPT 的论文,让它总结摘要,就会变成这样:

如果你对论文里的某一个图感兴趣呢?GPT-4 也可以解释一下:

接着来,问 GPT-4 梗图是什么意思:

它给出了详细的回答:

那么漫画呢?

让 GPT-4 解释为什么要给神经网络加层数,似乎有一点加倍的幽默感。

不过 OpenAI 在这里说了,图像输入是研究预览,仍不公开。

研究人员用学术的 Benchmark 视角来解读 GPT-4 的看图能力,然而这已经不够了,他们还能不断发现该模型可以令人兴奋地处理新任务 —— 现在的矛盾是 AI 的能力和人类想象力之间的矛盾。

看到这里,应该有研究人员感叹:CV 不存在了。

可控性

与具有固定冗长、平静语气和风格的经典 ChatGPT 个性不同,开发人员(以及 ChatGPT 用户)现在可以通过在「系统」消息中描述这些方向来规定他们的 AI 的风格和任务。

系统消息允许 API 用户在一定范围内定制化实现不同的用户体验。OpenAI 知道你们在让 ChatGPT 玩 Cosplay,也鼓励你们这样做。

局限性

尽管功能已经非常强大,但 GPT-4 仍与早期的 GPT 模型具有相似的局限性,其中最重要的一点是它仍然不完全可靠。OpenAI 表示,GPT-4 仍然会产生幻觉、生成错误答案,并出现推理错误。

目前,使用语言模型应谨慎审查输出内容,必要时使用与特定用例的需求相匹配的确切协议(例如人工审查、附加上下文或完全避免使用) 。

总的来说,GPT-4 相对于以前的模型(经过多次迭代和改进)已经显著减轻了幻觉问题。在 OpenAI 的内部对抗性真实性评估中,GPT-4 的得分比最新的 GPT-3.5 模型高 40%:

GPT-4 在 TruthfulQA 等外部基准测试方面也取得了进展,OpenAI 测试了模型将事实与错误陈述的对抗性选择区分开的能力,结果如下图所示。

实验结果表明,GPT-4 基本模型在此任务上仅比 GPT-3.5 略好;然而,在经过 RLHF 后训练之后,二者的差距就很大了。以下是 GPT-4 的测试示例 —— 并不是所有时候它都能做出正确的选择。

该模型在其输出中可能会有各种偏见,OpenAI 在这些方面已经取得了进展,目标是使建立的人工智能系统具有合理的默认行为,以反映广泛的用户价值观。

GPT-4 通常缺乏对其绝大部分数据截止后(2021 年 9 月)发生的事件的了解,也不会从其经验中学习。它有时会犯一些简单的推理错误,这似乎与这么多领域的能力不相符,或者过于轻信用户的明显虚假陈述。有时它也会像人类一样在困难的问题上失败,比如在它生成的代码中引入安全漏洞。

GPT-4 预测时也可能出错但很自信,意识到可能出错时也不会 double-check。有趣的是,基础预训练模型经过高度校准(其对答案的预测置信度通常与正确概率相匹配)。然而,通过 OpenAI 目前的后训练(post-training)过程,校准减少了。

风险及缓解措施

OpenAI 表示,研究团队一直在对 GPT-4 进行迭代,使其从训练开始就更加安全和一致,所做的努力包括预训练数据的选择和过滤、评估和专家参与、模型安全改进以及监测和执行。

GPT-4 有着与以前的模型类似的风险,如产生有害的建议、错误的代码或不准确的信息。同时,GPT-4 的额外能力导致了新的风险面。为了了解这些风险的程度,团队聘请了 50 多位来自人工智能对齐风险、网络安全、生物风险、信任和安全以及国际安全等领域的专家,对该模型在高风险领域的行为进行对抗性测试。这些领域需要专业知识来评估,来自这些专家的反馈和数据为缓解措施和模型的改进提供了依据。

预防风险

按照 demo 视频里 OpenAI 工程师们的说法,GPT-4 的训练在去年 8 月完成,剩下的时间都在进行微调提升,以及最重要的去除危险内容生成的工作。

GPT-4 在 RLHF 训练中加入了一个额外的安全奖励信号,通过训练模型拒绝对此类内容的请求来减少有害的输出。奖励是由 GPT-4 的零样本分类器提供的,它判断安全边界和安全相关 prompt 的完成方式。为了防止模型拒绝有效的请求,团队从各种来源(例如,标注的生产数据、人类的红队、模型生成的 prompt)收集多样化的数据集,在允许和不允许的类别上应用安全奖励信号(有正值或负值)。

这些措施大大在许多方面改善了 GPT-4 的安全性能。与 GPT-3.5 相比,模型对不允许内容的请求的响应倾向降低了 82%,而 GPT-4 对敏感请求(如医疗建议和自我伤害)的响应符合政策的频率提高了 29%。

训练过程

与之前的 GPT 模型一样,GPT-4 基础模型经过训练可以预测文档中的下一个单词。OpenAI 使用公开可用的数据(例如互联网数据)以及已获得许可的数据进行训练。训练数据是一个网络规模的数据语料库,包括数学问题的正确和错误解决方案、弱推理和强推理、自相矛盾和一致的陈述,以及各种各样的意识形态和想法。

因此,当提出问题时,基础模型的回应可能与用户的意图相去甚远。为了使其与用户意图保持一致,OpenAI 依然使用强化学习人类反馈 (RLHF) 来微调模型的行为。请注意,该模型的能力似乎主要来自预训练过程 ——RLHF 不会提高考试成绩(甚至可能会降低它)。但是模型的控制来自后训练过程 —— 基础模型甚至需要及时的工程设计来回答问题。

GPT-4 的一大重点是建立了一个可预测扩展的深度学习栈。主要原因是,对于像 GPT-4 这样的大型训练,进行广泛的特定模型调整是不可行的。团队开发了基础设施和优化,在多种规模下都有可预测的行为。为了验证这种可扩展性,他们提前准确地预测了 GPT-4 在内部代码库(不属于训练集)上的最终损失,方法是通过使用相同的方法训练的模型进行推断,但使用的计算量为 1/10000。

现在,OpenAI 可以准确地预测在训练过程中优化的指标(损失)。例如从计算量为 1/1000 的模型中推断并成功地预测了 HumanEval 数据集的一个子集的通过率:

有些能力仍然难以预测。例如,Inverse Scaling 竞赛旨在找到一个随着模型计算量的增加而变得更糟的指标,而 hindsight neglect 任务是获胜者之一。GPT-4 扭转了这一趋势。

能够准确预测未来的机器学习能力对于技术安全来说至关重要,但它并没有得到足够的重视,OpenAI 表示正在投入更多精力开发相关方法,并呼吁业界共同努力。

OpenAI 表示正在开源 OpenAI Evals 软件框架,它被用于创建和运行基准测试以评估 GPT-4 等模型,同时可以逐样本地检查模型性能。

ChatGPT 直接升级至 GPT-4 版

GPT-4 发布后,OpenAI 直接升级了 ChatGPT。ChatGPT Plus 订阅者可以在 chat.openai.com 上获得具有使用上限的 GPT-4 访问权限。

要访问 GPT-4 API(它使用与 gpt-3.5-turbo 相同的 ChatCompletions API),用户可以注册等待。OpenAI 会邀请部分开发者体验。

获得访问权限后,用户目前可以向 GPT-4 模型发出纯文本请求(图像输入仍处于有限的 alpha 阶段)。至于价格方面,定价为每 1k 个 prompt token 0.03 美元,每 1k 个 completion token 0.06 美元。默认速率限制为每分钟 40k 个 token 和每分钟 200 个请求。

GPT-4 的上下文长度为 8,192 个 token。OpenAI 还提供了 32,768 个 token 上下文(约 50 页文本)版本的有限访问,该版本也将随着时间自动更新(当前版本 gpt-4-32k-0314,也支持到 6 月 14 日)。定价为每 1K prompt token 0.06 美元和每 1k completion token 0.12 美元。

以上,就是今天 OpenAI 关于 GPT-4 的所有内容了。令人不满的一点是,OpenAI 公开的技术报告中,不包含任何关于模型架构、硬件、算力等方面的更多信息,可以说是很不 Open 了。

不管怎样,迫不及待的用户大概已经开始测试体验了吧。

最后,也想问一下读者,看完 GPT-4 的发布,你有何感想。

参考内容:https://openai.com/product/gpt-4

展开全文
打开碳链价值APP  查看更多精彩资讯
声明:本文内容为作者独立观点,不代表碳链价值立场,且不构成任何投资理财建议。
1 0
AIGCChatGPT

扫一扫,分享到微信

相关推荐

OpenAI、Google和Meta 的当红华人研究员们在想些什么|对话实录 滚动

OpenAI、Google和Meta 的当红华人研究员们在想些什么|对话实录

AIGC 2023-09-24 滚动
AIAIGCChatGPT
座无虚席,过道里也站满了人。甚至你会以为这是一场明星见面会。但这其实是一场在硅谷进行的GenAI大会的其中一个圆桌。
GPT-4也难逃“反转诅咒”!新研究发现:大模型存在推理缺陷,知道“A是B”推不出“B是A” 滚动

GPT-4也难逃“反转诅咒”!新研究发现:大模型存在推理缺陷,知道“A是B”推不出“B是A”

AIcore 2023-09-24 滚动
ChatGPT大模型
大模型明知道“你妈是你妈”,却答不出“你是你妈的儿子”??
清华用7个ChatGPT模拟《狼人杀》,结果出乎意料! 滚动

清华用7个ChatGPT模拟《狼人杀》,结果出乎意料!

AI之势 2023-09-24 滚动
AIChatGPT大模型
为了验证大语言模型的沟通、规划、反思等拟人化能力,清华研究团队发布了一篇名为“探索大语言模型在交流游戏中的应用:《狼人杀》实验”的研究论文。

碳链快讯更多 ›

2023-09-25

香港证监会将公布4份虚拟资产名单和1份专门针对可疑虚拟资产交易平台的名单

2023-09-25

香港证监会将于今日 11:00 就虚拟资产交易平台事宜会见传媒

2023-09-25

南华早报:JPEX 暴雷可能成为香港历史上最大的金融欺诈案

2023-09-24

天桥资本创始人:比特币ETF将成为华尔街标配产品

2023-09-22

比特大陆已与全球客户达成超过1GW的水冷矿场合作

2023-09-22

比特大陆发布蚂蚁矿机 S21系列 最高算力达335T

2023-09-22

比特大陆同意向Core Scientific投资5390万美元以扩大合作关系

2023-09-22

Tim Draper推出新加密风投工作室Draper Goren Blockchain

2023-09-22

彭博社:Silver Point、 Attestor Capital 等基金公司已购入价值逾 2.5 亿美元的 FTX 债务

2023-09-22

香港特首:JPEX 事件证明虚拟资产发牌制度是正确的

2023-09-22

彭博社:币安9月比特币交易量下降或与零手续费促销停止活动有关

2023-09-21

新加坡银行加强对持有「投资相关」护照的中国客户的检查

2023-09-21

Tether 购买价值 4.2 亿美元的 Nvidia 芯片并计划出租给 AI 初创公司

2023-09-21

MakerDAO 再次增加 1.91 亿美元 RWA 资产,RWA 总资产超 29 亿美元

2023-09-21

黄立成以 1100 万枚 APE 购买 Yuga 资产并发行代币 DAM提案获投票通过

2023-09-21

美国众议院金融服务委员会批准禁止发行 CBDC 的法案

2023-09-21

PayPal 旗下 Venmo 钱包将上线 PYUSD

2023-09-20

新加坡最大洗钱案涉案金额扩大至 24 亿新元,价值近 0.4 亿新元的加密货币被扣押

2023-09-20

香港证监会:JPEX从未就可能作出的牌照申请与我们接洽

2023-09-20

梁瀚璟:基于 RWA、STO 进行融资可能会是 Web3 杀手级产品

2023-09-20

香港投委会:区块链不记名交易很难追回

2023-09-20

斯坦福大学承诺退还 FTX 债务人 550 万美元捐款

2023-09-20

菲律宾 SEC 与美 SEC 合作打击加密货币欺诈

2023-09-20

香港警方披露 JPEX 运作模式和推广手法,公布五大涉嫌诈骗元素

2023-09-20

CoinEx 攻击事件已造成超 7000 万美元损失,将全额赔偿受损用户

2023-09-20

灰度向 SEC 提交新的以太坊期货 ETF

2023-09-20

a16z crypto 开放加密创业学校 2024 年春季申请,将向每家参与公司投资 50 万美元以换取 7% 的股权

2023-09-19

Chainalysis :印度在全球加密货币交易量中排名第二

2023-09-19

香港警方:考虑将涉 JPEX 案逾 6000 万港元财产充公,会在必要时刻将涉案离港艺人引渡回港

2023-09-19

上海:加快布局区块链等事关未来的关键基础设施

2023-09-19

区块链技术公司 Jiritsu 完成 1020 万美元融资,并推出资产代币化平台 Tomei RWA

2023-09-19

肯尼亚官员:美国当局阻止肯尼亚拘留 Worldcoin 的几位高管

2023-09-19

区块链医疗数据交换平台 Briya 完成 1150 万美元 A 轮融资,Team8 领投

2023-09-19

时尚领域元宇宙数据分析商 Geeiq 完成 820 万美元 A 轮融资,YFM Equity Partners 领投

2023-09-19

Circle:USDC 已上线 Polkadot 主网

2023-09-19

香港特首:JPEX事件反映出监管的重要性

2023-09-19

邱达根阐述「三箭三圆」:香港政府正考虑推动土地代币化、加快推出零售数码港元等

2023-09-18

蚂蚁集团计划退出对A&T Capital的投资

2023-09-18

香港警方拘捕 JPEX 推广网红林作,或因涉嫌 JPEX 案件

2023-09-18

美国众议院金融服务委员会将批准两项法案,干涉数字美元的发行

2023-09-15

香港金管局:虚拟资产机构使用「银行」陈述或涉嫌犯罪

2023-09-15

日本政府允许初创企业用虚拟货币筹集资金

2023-09-15

香港加密交易所Meex与ZA银行签署战略合作协议

2023-09-15

MakerDAO 再次增加1亿美元 RWA 资产,RWA 总资产达 27.13 亿美元

2023-09-15

港媒:香港警方正调查 JPEX 是否涉及刑事成分

2023-09-15

迪拜与香港将加强金融合作,涵盖金融科技和虚拟资产等领域

2023-09-15

香港议员回应Vitalik:香港政策和法律不会朝令夕改

2023-09-15

加密市场8月份资金流出达550亿美元,重大事件造成的影响正在上升

2023-09-14

Vitalik Buterin:寻求在香港发展的项目方应考虑当地的政策持续性

2023-09-14

彭博社:如果获批,美国现货比特币ETF可能发展成1000亿美元的市场

推荐文章

  • BV行研:寻找算法稳定币的原生之锚

    2023-03-22

  • OpenAI重磅研究:ChatGPT可能影响80%工作岗位,收入越高影响越大

    2023-03-21

  • 盘点GPT-4的10大应用场景

    2023-03-21

  • 英伟达CEO:现在是AI行业的iPhone时刻

    2023-03-21

  • 美联储的3000亿美元应急措施,能否阻止危机?

    2023-03-20

价值号更多 ›

达瓴智库
达瓴智库
文章: 155
  • 如何通过MVRV判断加密牛市还是熊市?
  • ETH在上海升级期间表现如何?
  • 熊末牛初:Ordinals是福是祸?
区块链骑士
区块链骑士
文章: 1295
  • 数字经济离主流还有多远?传统金融市场需要做哪些改变?
  • NFT市场走出低谷,新老玩家开始竞争,品牌和营销如何才能实现长效增长?
  • 数字美元要来了?盘点美国政府CBDC新动作
TinTinLand
TinTinLand
文章: 33
  • 上海升级的机遇,值得关注的 Layer2 与 LSD 赛道
  • ETHDenver 2023 盛会中的重点趋势一览
  • Blur 狂潮下,NFTFi 如何解困 NFT 流动性难题
换一批

热门标签

新基建 比特币 以太坊 矿业 DeFi 共识对话 区块链+ 研报 美联储 央行数字货币 无限QE 加密衍生品 AI 云计算 大数据 5G 政策 交易所 稳定币 电子支付 Libra 算力产业 联盟链 公链 区块链 加密货币 Nervos Cosmos EOS STO

邮件订阅

及时、全面、专业、准确的资讯与数据,致力于为区块链爱好者以及数字货币投资者提供最好的服务。

App内打开

邮件订阅

及时、全面、专业、准确的资讯与数据,致力于为区块链爱好者以及数字货币投资者提供最好的服务。

Moshou

碳链价值是集资讯、行情、数据于一身的区块链信息服务平台,我们追求及时、全面、专业、精确的资讯与数据,致力于为区块链创新者和数字货币投资者提供优质的服务。

关于我们 加入我们 联系我们 隐私条款
微信公众号

扫一扫关注微信公众号

Copyright © 2018-2020 碳链价值 京ICP备18046423号
下载碳链App

下载碳链App

微信公众号

微信公众号

微信公众号

微信公众号

打赏文章作者

支付宝打赏二维码 支付宝扫一扫打赏
微信打赏二维码 微信扫一扫打赏

# 热门搜索 #

CBDC 比特币 DeFi 以太坊 区块链