• 简体版 | 繁體版
  • 联系我们
  • 加入我们
  • 关于我们
  •  
  • 首页
  • 快讯
  • 价值号
  • 视频
  • 专题
  • 深度
  • 入驻价值号
  • 碳链APP
    微信公众号

    扫码下载App

  • 登录
  • 微信公众号

    微信公众号

导航
  • 首页
  • 快讯
  • 区块链+
  • 价值号
  • 视频
  • 专题
  • DeFi优选
碳链价值APP
专注服务于金融科技和区块链
立即打开

姚前:关于大模型生态建设的若干思考

中国金融中国金融  •  2023-07-10
GPT类大模型功能强大,在未来会成为许多行业如互联网、金融、医疗等领域的重要基础设施之一。

作者:姚前「中国证监会科技监管局局长」

来源:《中国金融》2023年第13期

进入2023年,ChatGPT、GPT4以及Midjourney等以内容生成为导向的人工智能应用,引发了一轮又一轮的创新浪潮。有人甚至认为,大模型正在以日为单位迭代进化。作为新型生产要素,大模型训练数据的良性可持续发展,对于大模型和人工智能产业的发展至关重要。金融业作为大数据和人工智能应用的重要领域,理应密切关注当前大模型训练相关技术的最新态势。本文首先分析大模型的进化与升级路径,之后通过探讨大模型和中小模型可能的交互方式,阐述大模型的数据生态和模型生态建设,为保障产业安全健康发展、规避数据和技术风险以及构建可持续发展的大模型生态提供相关思路。

大模型的升级与进化路径分析

从长期视角来看,大模型的进化衍生出众多分支。最近一段时间,大模型迭代不仅速度加快,而且参与者也越来越多,基本上涵盖了所有的大型科技公司,生态的多样性和复杂性已初步显现。

目前,大模型升级迭代过程中的底层算法框架并没有本质的变化,算力投入以及训练数据的丰富仍然是其快速进化的关键,只不过最新的GPT4呈现出一些新的特征。

一是算法方面更适配具体的下游任务。GPT3与GPT3.5都是1750亿参数的大模型。GPT4目前没有公布具体参数,但有人推测其参数将达到万亿级别,同时在强化学习和解决具体任务方面也将有显著提升,比较流行的术语是“对齐”(Alignment)。如果说GPT3系列模型向大家证明了人工智能能够在一个模型里做多个任务,那么GPT4则在很多任务上已经达到甚至超过人类水平,比如,在律师等专业学术考试上,分数能够达到应试者前10%左右的水平。

二是具备更规范的训练数据治理能力且支持多模态。GPT4拥有“堪比人脑”的多模态能力,跟目前很多论文阐述的多模态机理并无太多差别,但它能够把文本模型的少样本处理能力和思维链(Chain of Thought,CoT)结合进来。GPT4训练数据的治理与供给,离不开数据标注、数据管理与评估、数据自动化以及数据合成。

三是构建更强大的算力集群,以满足更多的训练数据集和更大的输入参数。例如,微软已经将超过一半的云资源投入大模型训练与人工智能生成内容(AIGC)应用。英伟达更是与台积电、荷兰阿斯麦、新思科技强强联手,打造全新的算力平台与更强大的GPU。

构建各类模型相互联通的生态

GPT类大模型功能强大,在未来会成为许多行业如互联网、金融、医疗等领域的重要基础设施之一。例如,在金融领域,经过相关专业数据的训练,大模型可以具备理解金融业务知识的能力,并能针对具体场景提出解决方案,支持金融机构开展营销自动化、客户关联关系挖掘、智能风险识别、智能客服、智能投研等。

但在具体应用落地的过程中,GPT类大模型还会面临一系列挑战。一是如何确保训练数据的数量与质量。一般而言,大模型的训练语料为来自于多个领域的通用语料,而专业语料的收集通常比较耗时费力,同时也存在隐私问题,由此导致大模型在具体的个别应用领域可能出现专业性不足的情况。二是如何降低大模型的运行和维护成本。大模型需要巨大的算力支持和严格的数据治理,普通的机构和应用部门往往难以支撑大模型的运行以及迭代升级工作。为此,需要建立一个各类模型健康交互和协同进化的生态,以保证大模型相关人工智能产业可以在各个应用领域成功落地。

从技术角度来分析,大模型的进化依靠人工反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF),其采用的数据标注与过去那种用低成本劳动力完成的简单数据标注工作有所不同,需要非常专业的人士来写词条,针对相应的问题和指令,给出符合人类逻辑与表达的高质量答案。但由于人工与机器的交互存在一定的隔阂,比较理想的模式是通过模型之间的交互来进行强化学习,即依靠模型反馈的强化学习(Reinforcement Learning from Model Feedback,RLMF)。基于各类模型的交互,可以将整个大模型的数据和模型生态统一为一个框架。

过去,在分散化的模型研发模式下,单一的人工智能应用场景下多个任务需要由多个模型共同支撑完成,每一个模型建设都要经历算法开发、数据处理、模型训练与调优过程。预训练大模型增强了人工智能的通用性、泛化性,基于大模型通过零样本或小样本精调,就可在多种任务上取得较好效果。大模型“预训练+精调”模式为人工智能研发带来了新的标准化范式,使人工智能模型可以在更统一、更简明的方式下实现规模化生产。围绕技术创新与应用落地,大模型的数据和产业生态可划分为基础设施(包括通用语料及算力平台)、基础大模型、大模型服务(包括合成数据、模型供给及应用插件)。在下游应用中,用户可以部署自己的小模型,通过大模型的各种服务来提升性能,同时也可反向给大模型提供相应的反馈服务,帮助大模型迭代进化(见图1)。

基础大模型是大模型产业生态的核心引擎,其优势在于基础性和通用性,面向典型任务如自然语言处理、计算机视觉、跨模态任务等需求,进一步结合任务特性,优化模型算法,学习相关数据与知识,从而使大模型表现出更优异的效果,甚至可以零样本直接应用。

小模型具有体量小(通常在百亿参数级别)、易于训练及维护的特点,因此适合各垂直领域,适合各行业进行内部开发和使用。在通常情况下,小模型训练成本较低,但性能远不及大模型。通过大、小模型交互应用,可以让小模型获得大模型的部分能力或实现部分功能,从而在不增加运维成本的前提下,使小模型的性能得到较大提升,满足具体的应用需求。大、小模型交互的方式可以分为三类:数据交互、模型交互和应用交互(见图2)。

  • 数据交互

数据交互是指大、小模型不直接参与彼此的训练或推理过程,而是间接通过彼此产生的数据来进行交互。大模型的训练通常需要大规模的通用语料,如GPT3的训练语料多达753GB,来自维基百科等多个数据源。通用语料指的是覆盖多个领域的语料,在某些特定领域的知识覆盖可能存在不足。大模型训练完成后,可以通过指令生成一些特定领域的合成语料,再通过本地化部署,连同该领域的专用语料或行业内的私有语料一起训练小模型。小模型训练语料的领域比较集中,因此可以系统掌握本领域的知识,从而使模型的输出更专业、更细致、更精准。大模型在这一过程中的作用是产生大规模的高质量合成语料,使小模型的训练可以更加充分,防止专用语料或私有语料因规模小而导致模型的过度拟合。反之,小模型生成的专业语料,也可以作为大模型训练语料的补充,增强大模型在不同领域的专业能力,使大模型可以不断迭代进化。

实现大、小模型的数据交互,除了要依靠数据源管理机构外,还需考虑建立数据托管和交易机构,使得大、小模型的训练数据可以有序管控和流动,并为各方合理分配相应的权益。

  • 模型交互

除了间接的数据交互之外,大、小模型还可在模型层面进行交互,通过参与彼此的训练过程,使得双方可以共同受益,提升大模型的迭代效率。一方面,大模型可以指导小模型的训练,常用的方式为蒸馏学习(Knowledge Distillation)。在蒸馏学习模式中,训练好的大模型可以作为教师模型,待训练的小模型作为学生模型,针对同一批训练数据,通过设计合理的损失函数,将大模型产生的软标签与训练数据本身的硬标签对小模型的训练进行联合指导。同样,小模型也可对大模型进行反向蒸馏,利用小模型做样本价值判断帮助大模型加速收敛——将训练好的小模型在下游数据集上进行进一步微调之后,得到样本价值判断模型。

  • 应用交互

大、小模型在应用层面进行交互的典型方式为插件模式,即将模型构建的应用封装为插件服务供其他模型调用。插件模式具有两大优点:一是便捷高效,模型无需重复训练;二是隔离性好,可以避免模型细节的泄露,从而更好地保护模型训练方和使用方的权益。

一方面,大模型基本上采用预训练方式,实时性不高。通过调用小模型应用插件,大模型应用不仅可以提高输出结果的实时性,也可以扩展自身在特定领域的知识缺失。另一方面,小模型构建的应用也可以通过调用GPT类大模型提供的插件,直接获得大模型强大的生成能力和推理能力。这种应用交互方式可以让小模型免去通用知识的训练过程,以较低成本来专注于特定领域的内容生产,用户也可以感受到各类模型互联互通后产生的“化学”反应。

开放人工智能(Open AI)近期发布的新产品ChatGPT plugins可以通过应用插件连接ChatGPT与第三方应用。这些第三方应用,可以是由单个领域的小模型构建而成。通过这种方式,小模型可以在ChatGPT类的大模型中完成多种扩展功能,如检索实时资讯或知识库信息、代替用户对现实世界进行“智能调度”等。

大模型训练数据与模型工具链的标准化和安全管控

大模型的性能依赖于训练数据的质量,同时,模型在不同落地场景下所需的底层技术规格也不尽相同。因此,构建大模型持续发展、健康交互的良好产业生态,必须推进大模型训练数据与底层技术的标准化,加快模型的迭代与落地。

一方面,大模型自身的训练数据集以及定义的数据服务接口(API),将会成为行业的事实标准,而接入大模型的各种应用都必须遵循该标准。目前,模型“预训练+微调”已经成为行业统一的标准流程和范式。在此基础上,结合具体的应用场景和专业数据,可以进一步定制和优化各领域各行业的小模型。从某种程度上来说,大模型训练数据和数据服务接口标准,将会成为下一代国际标准的核心之一。

另一方面,处理大模型训练数据的底层技术所需的工具链也必须产品化和标准化。大模型在标准化技术服务的有力支撑下,可输出硬件适配、模型蒸馏和压缩、模型分布式训练和加速、向量数据库、图数据库、模型互联互通等技术方案,提供自然语言处理、计算机视觉、跨模态、知识图谱等各类能力,让更多的企业、开发者可以低门槛地将大模型应用于自身业务并构建行业垂直模型,从而促进人工智能在各领域广泛落地。

值得注意的是,大模型的开发和应用虽然会对产业和经济发展带来巨大红利,但如果不加以合理管控,也会给国家和产业安全带来风险。一是数据泄露风险。大模型的训练、落地,都需要以海量的数据支撑,其中包含行业或个人敏感信息的数据。如果没有合理的数据脱敏和数据托管机制,则可能造成数据泄露,给行业和个人造成损失。二是模型安全风险。比如,插件可能被植入有害内容,成为不法分子欺诈和“投毒”的工具,危及社会和产业安全。

相关建议

以大模型训练数据为抓手,标准制定和数据治理双管齐下。通过制定模型应用规范,统一接口标准,促进行业规范化发展。可考虑对模型的合成数据进行托管,以加强监督,保障数据内容合规、权益清晰、流通顺畅。同时完善法律法规,优化政策制度,以多种途径与方式形成监管合力,严防恶意篡改模型和渗入有害数据等行为。

构建大模型训练数据要素市场。厘清训练数据采集处理、合成数据服务、大小模型互联互通、应用API之间的产业链。加快数据要素市场建设,为训练数据提供市场化定价,以利权益分配与激励。

构建大小模型共生发展、相互促进的良好生态。总体来看,目前国内外主流大模型在算法层面尚不存在代际差,但是在算力和数据方面存有差距。建议在通用领域大力支持国内头部科技企业研发自主可控的国产大模型,同时鼓励各垂直领域在大模型基础上,利用开源工具构建规范可控的自主工具链,既探索“大而强”的通用模型,又研发“小而美”的垂直行业模型,从而构建基础大模型和专业小模型交互共生、迭代进化的良好生态。

展开全文
打开碳链价值APP  查看更多精彩资讯
声明:本文内容为作者独立观点,不代表碳链价值立场,且不构成任何投资理财建议。
0 0
大模型

扫一扫,分享到微信

相关推荐

Meta 开了一场“AI”派对,AI 助手 Meta AI、图像模型 Emu 都来了 滚动

Meta 开了一场“AI”派对,AI 助手 Meta AI、图像模型 Emu 都来了

Kyle 2023-09-28 滚动
meta大模型
Meta 举行了一年一度的 Meta Connect 活动,展示公司的年度软件和硬件产品,小扎亲自站台。不出意外,整个活动都围绕着当下最关注的“AI”。
近三年营收飙升 积极投身大模型 决策类AI公司第四范式成功登陆港股 滚动

近三年营收飙升 积极投身大模型 决策类AI公司第四范式成功登陆港股

AI梦工厂 2023-09-28 滚动
AI大模型
第四范式联合创始人胡时伟曾表示,第四范式看到大模型的商业机会,是企业数字化转型巨大提速的可能性。
背诵不等于理解,深度解析大模型背后的知识储存与提取 滚动

背诵不等于理解,深度解析大模型背后的知识储存与提取

Model进化论 2023-09-28 滚动
大模型
如何理解自然语言模型的工作原理?

碳链快讯更多 ›

2023-09-28

国际清算银行同法国、新加坡以及瑞士央行完成 CBDC 跨境交易和结算联合测试

2023-09-28

美SEC已正式接收富兰克林邓普顿和Hashdex的比特币ETF申请

2023-09-27

Uniswap 基金会发布 6237 万美元资金筹措提案,并公布未来生态系统建设规划

2023-09-27

蔡凤仪:现阶段允许「公共基金代币化」一级交易更为合适

2023-09-25

香港证监会将公布4份虚拟资产名单和1份专门针对可疑虚拟资产交易平台的名单

2023-09-25

香港证监会将于今日 11:00 就虚拟资产交易平台事宜会见传媒

2023-09-25

南华早报:JPEX 暴雷可能成为香港历史上最大的金融欺诈案

2023-09-24

天桥资本创始人:比特币ETF将成为华尔街标配产品

2023-09-22

比特大陆已与全球客户达成超过1GW的水冷矿场合作

2023-09-22

比特大陆发布蚂蚁矿机 S21系列 最高算力达335T

2023-09-22

比特大陆同意向Core Scientific投资5390万美元以扩大合作关系

2023-09-22

Tim Draper推出新加密风投工作室Draper Goren Blockchain

2023-09-22

彭博社:Silver Point、 Attestor Capital 等基金公司已购入价值逾 2.5 亿美元的 FTX 债务

2023-09-22

香港特首:JPEX 事件证明虚拟资产发牌制度是正确的

2023-09-22

彭博社:币安9月比特币交易量下降或与零手续费促销停止活动有关

2023-09-21

新加坡银行加强对持有「投资相关」护照的中国客户的检查

2023-09-21

Tether 购买价值 4.2 亿美元的 Nvidia 芯片并计划出租给 AI 初创公司

2023-09-21

MakerDAO 再次增加 1.91 亿美元 RWA 资产,RWA 总资产超 29 亿美元

2023-09-21

黄立成以 1100 万枚 APE 购买 Yuga 资产并发行代币 DAM提案获投票通过

2023-09-21

美国众议院金融服务委员会批准禁止发行 CBDC 的法案

2023-09-21

PayPal 旗下 Venmo 钱包将上线 PYUSD

2023-09-20

新加坡最大洗钱案涉案金额扩大至 24 亿新元,价值近 0.4 亿新元的加密货币被扣押

2023-09-20

香港证监会:JPEX从未就可能作出的牌照申请与我们接洽

2023-09-20

梁瀚璟:基于 RWA、STO 进行融资可能会是 Web3 杀手级产品

2023-09-20

香港投委会:区块链不记名交易很难追回

2023-09-20

斯坦福大学承诺退还 FTX 债务人 550 万美元捐款

2023-09-20

菲律宾 SEC 与美 SEC 合作打击加密货币欺诈

2023-09-20

香港警方披露 JPEX 运作模式和推广手法,公布五大涉嫌诈骗元素

2023-09-20

CoinEx 攻击事件已造成超 7000 万美元损失,将全额赔偿受损用户

2023-09-20

灰度向 SEC 提交新的以太坊期货 ETF

2023-09-20

a16z crypto 开放加密创业学校 2024 年春季申请,将向每家参与公司投资 50 万美元以换取 7% 的股权

2023-09-19

Chainalysis :印度在全球加密货币交易量中排名第二

2023-09-19

香港警方:考虑将涉 JPEX 案逾 6000 万港元财产充公,会在必要时刻将涉案离港艺人引渡回港

2023-09-19

上海:加快布局区块链等事关未来的关键基础设施

2023-09-19

区块链技术公司 Jiritsu 完成 1020 万美元融资,并推出资产代币化平台 Tomei RWA

2023-09-19

肯尼亚官员:美国当局阻止肯尼亚拘留 Worldcoin 的几位高管

2023-09-19

区块链医疗数据交换平台 Briya 完成 1150 万美元 A 轮融资,Team8 领投

2023-09-19

时尚领域元宇宙数据分析商 Geeiq 完成 820 万美元 A 轮融资,YFM Equity Partners 领投

2023-09-19

Circle:USDC 已上线 Polkadot 主网

2023-09-19

香港特首:JPEX事件反映出监管的重要性

2023-09-19

邱达根阐述「三箭三圆」:香港政府正考虑推动土地代币化、加快推出零售数码港元等

2023-09-18

蚂蚁集团计划退出对A&T Capital的投资

2023-09-18

香港警方拘捕 JPEX 推广网红林作,或因涉嫌 JPEX 案件

2023-09-18

美国众议院金融服务委员会将批准两项法案,干涉数字美元的发行

2023-09-15

香港金管局:虚拟资产机构使用「银行」陈述或涉嫌犯罪

2023-09-15

日本政府允许初创企业用虚拟货币筹集资金

2023-09-15

香港加密交易所Meex与ZA银行签署战略合作协议

2023-09-15

MakerDAO 再次增加1亿美元 RWA 资产,RWA 总资产达 27.13 亿美元

2023-09-15

港媒:香港警方正调查 JPEX 是否涉及刑事成分

2023-09-15

迪拜与香港将加强金融合作,涵盖金融科技和虚拟资产等领域

推荐文章

  • 英国首相:决心将本国打造成全球Crypto中心

    2023-07-10

  • Midjourney CEO 最新演讲:AI是我们自身的延伸

    2023-07-07

  • 启明创投:最迟2024中国GPT4将诞生,长文本是大语言模型关键

    2023-07-07

  • 一份全面清单:Web3行业高薪酬的13种工作

    2023-07-06

  • 区块链与价值链:两条链的「爱情故事」(上)

    2023-07-05

价值号更多 ›

深潮TechFlow
深潮TechFlow
文章: 304
  • Apple 的 Vision Pro 问世, Web3 元宇宙面临复苏还是毁灭?
  • a16z 安德森:为什么 AI 会拯救世界
  • 红杉资本分家背后:地缘政治、投资冲突、未来博弈
区块链骑士
区块链骑士
文章: 1367
  • 英国首相:决心将本国打造成全球Crypto中心
  • FTX粉碎泰勒·斯威夫特的Crypto梦想,1亿美元合作也随之告吹
  • 一份全面清单:Web3行业高薪酬的13种工作
TinTinLand
TinTinLand
文章: 59
  • 繁荣之 DAO:五大 Web3 社区构建心得独家分享
  • 加密世界新宠,ZK-Rollup 技术的应用和前景
  • SEC 冲击加密市场,开发者有何启示和方向?
换一批

热门标签

新基建 比特币 以太坊 DeFi 共识对话 区块链+ 美联储 央行数字货币 加密衍生品 AI 云计算 大数据 5G 政策 交易所 稳定币 电子支付 Libra 算力产业 联盟链 公链 区块链 加密货币 Nervos Cosmos EOS BCH STO 数字货币 去中心化

邮件订阅

及时、全面、专业、准确的资讯与数据,致力于为区块链爱好者以及数字货币投资者提供最好的服务。

App内打开

邮件订阅

及时、全面、专业、准确的资讯与数据,致力于为区块链爱好者以及数字货币投资者提供最好的服务。

Moshou

碳链价值是集资讯、行情、数据于一身的区块链信息服务平台,我们追求及时、全面、专业、精确的资讯与数据,致力于为区块链创新者和数字货币投资者提供优质的服务。

关于我们 加入我们 联系我们 隐私条款
微信公众号

扫一扫关注微信公众号

Copyright © 2018-2020 碳链价值 京ICP备18046423号
下载碳链App

下载碳链App

微信公众号

微信公众号

微信公众号

微信公众号

打赏文章作者

支付宝打赏二维码 支付宝扫一扫打赏
微信打赏二维码 微信扫一扫打赏

# 热门搜索 #

CBDC 比特币 DeFi 以太坊 区块链