• 简体版 | 繁體版
  • 联系我们
  • 加入我们
  • 关于我们
  •  
  • 首页
  • 快讯
  • 价值号
  • 视频
  • 专题
  • 滚动
  • 入驻价值号
  • 碳链APP
    微信公众号

    扫码下载App

  • 登录
  • 微信公众号

    微信公众号

导航
  • 首页
  • 快讯
  • 区块链+
  • 价值号
  • 视频
  • 专题
  • DeFi优选
碳链价值APP
专注服务于金融科技和区块链
立即打开

谷歌这一“大招”,要逼死多少AI标注公司?

AI之势 •  2023-09-18
AI标注的出现,并不是国内标注企业的末日,而只是一种低效、廉价、缺乏技术含量的劳动密集型标注方式的末日。

原文来源:AI 新智能

图片来源:由无界 AI‌ 生成

如果说,当下的生成式AI,是一个正在茁壮成长的孩子,那么源源不断的数据,就是其喂养其生长的食物。

而数据标注,就是制作这一“食物”的过程。

然而,这一过程真的很卷,很累人。

进行标注的“标注师”不仅需要反复地识别出图像中的各种物体、颜色、形状等,有时候甚至需要对数据进行清洗和预处理。

随着AI技术的不断进步,人工数据标注的局限性也日益显现。人工数据标注不仅耗时耗力,而且质量有时难以保障。

为了解决这些问题,谷歌最近提出了一种用大模型替代人类进行偏好标注的方法,称为AI反馈强化学习(RLAIF)。

研究结果表明,RLAIF可以在不依赖人类标注的情况下,产生与人类反馈强化学习(RLHF)相当的改进效果,两者的胜率都是50%。同时,RLAIF和RLHF都优于监督微调(SFT)的基线策略。

这些结果表明,RLAIF不需要依赖于人工标注,是RLHF的可行替代方案。

那么,倘若这一技术将来真的推广、普及,众多还在靠人工“拉框”的数据标注企业,从此是否就真的要被逼上绝路了?

1 数据标注现状

如果要简单地总结目前国内标注行业的现状,那就是:劳动量大,但效率却不太高,属于费力不讨好的状态。

标注企业被称为AI领域的数据工厂,通常集中在东南亚、非洲或是中国的河南、山西、山东等人力资源丰富的地区。

为了控制成本,标注公司的老板们会在县城里租一块场地,摆上电脑,有订单了就在附近招人兼职来做,没单子就解散休息。

简单来说,这个工种有点类似马路边上的临时装修工。

在工位上,系统会随机给“标注师”一组数据,一般包含几个问题和几个回答。

之后,“标注师”需要先标注出这个问题属于什么类型,随后给这些回答分别打分并排序。

此前,人们在谈论国产大模型与GPT-4等先进大模型的差距时,总结出了国内数据质量不高的原因。

但数据质量为何不高?一部分原因,就出在数据标注的“流水线”上。

目前,中文大模型的数据来源是两类,一类是开源的数据集;一类是通过爬虫爬来的中文互联网数据。

中文大模型表现不够好的主要原因之一就是互联网数据质量,比如,专业人士在查找资料的时候一般不会用百度。

因此,在面对一些较为专业、垂直的数据问题,例如医疗、金融等,就要与专业团队合作。

可这时,问题又来了:对于专业团队来说,在数据方面不仅回报周期长,而且先行者很有可能会吃亏。

例如,某家标注团队花了很多钱和时间,做了很多数据,别人可能花很少的钱就可以直接打包买走。

面对这样的“搭便车困境”,国内大模型纷纷陷入了数据虽多,但质量却不高的诡异困境。

既然如此,那目前国外一些较为领先的AI企业,如OpenAI,他们是怎么解决这一问题的?

其实,在数据标注方面,OpenAI也没有放弃使用廉价的密集劳动来降低成本,

例如,此前就曝出其曾以2美元/小时的价格,雇佣了大量肯尼亚劳工进行有毒信息的标注工作。

但关键的区别,就在于如何解决数据质量和标注效率的问题。

具体来说,OpenAI在这方面,与国内企业最大的不同,就在于如何降低人工标注的“主观性”、“不稳定性”的影响。

2 OpenAI的方式

为了降低这样人类标注员的“主观性”和“不稳定性”,OpenAI大致采用了两个主要的策略:

1、人工反馈与强化学习相结合;

这里先说说第一点,在标注方式上,OpenAI的人工反馈,与国内最大的区别,就在于其主要是对智能系统的行为进行排序或评分,而不是对其输出进行修改或标注。

智能系统的行为,是指智能系统在一个复杂的环境中,根据自己的目标和策略,做出一系列的动作或决策。

例如玩一个游戏、控制一个机器人、与一个人对话等。

智能系统的输出,则是指在一个简单的任务中,根据输入的数据,生成一个结果或回答,例如写一篇文章、画一幅画。

通常来说,智能系统的行为比输出更难以用“正确”或“错误”来判断,更需要用偏好或满意度来评价。

而这种以“偏好”或“满意度”为标准的评价体系,由于不需要修改或标注具体的内容,从而减少了人类主观性、知识水平等因素对数据标注质量以及准确性的影响。

诚然,国内企业在进行标注时,也会使用类似“排序”、“打分”的体系,但由于缺乏OpenAI那样的“奖励模型”作为奖励函数来优化智能系统的策略,这样的“排序”和“打分”,本质上仍然是一种对输出进行修改或标注的方法。

2、多样化、大规模的数据来源渠道;

国内的数据标注来源主要是第三方标注公司或科技公司自建团队,这些团队多为本科生组成,缺乏足够的专业性和经验,难以提供高质量和高效率的反馈。

而相较之下,OpenAI的人工反馈则来自多个渠道和团队。

OpenAI不仅使用开源数据集和互联网爬虫来获取数据,还与多家数据公司和机构合作,例如Scale AI、Appen、Lionbridge AI等,来获取更多样化和高质量的数据。

与国内的同行相比,这些数据公司和机构标注的手段要“自动”和“智能”得多。

例如,Scale AI使用了一种称为 Snorkel的技术,它是一种基于弱监督学习的数据标注方法,可以从多个不精确的数据源中生成高质量的标签。

同时,Snorkel还可以利用规则、模型、知识库等多种信号来为数据添加标签,而不需要人工直接标注每个数据点。这样可以大大减少人工标注的成本和时间。

在数据标注的成本、周期缩短的情况下,这些具备了竞争优势的数据公司,再通过选择高价值、高难度、高门槛的细分领域,如自动驾驶、大语言模型、合成数据等,就可不断提升自己的核心竞争力和差异化优势。

如此一来,“先行者会吃亏”的搭便车困境,也被强大的技术和行业壁垒给消弭了。

3 标准化VS小作坊

由此可见,AI自动标注技术,真正淘汰的只是那些还在使用纯人工的标注公司。

尽管数据标注听上去是一个“劳动密集型”产业,但是一旦深入细节,便会发现,追求高质量的数据并不是一件容易的事。

以海外数据标注的独角兽Scale AI为代表,Scale AI不仅仅在使用非洲等地的廉价人力资源,同样还招聘了数十名博士,来应对各行业的专业数据。

数据标注质量,是Scale AI为OpenAI等大模型企业提供的最大价值。

而要想最大程度地保障数据质量,除了前面提到的使用AI辅助标注外,Scale AI的另一大创新,就是了一个统一的数据平台。

这些平台,包括了Scale Audit、Scale Analytics、ScaleData Quality 等。通过这些平台,客户可以监控和分析标注过程中的各种指标,并对标注数据进行校验和优化,评估标注的准确性、一致性和完整性。

可以说,这样标准化、统一化的工具与流程,成为了区分标注企业中“流水线工厂”和“手工小作坊”的关键因素。

在这方面,目前国内大部分的标注企业,都仍在使用“人工审核”的方式来审核数据标注的质量,只有百度等少数巨头引入了较为先进的管理和评估工具,如EasyData智能数据服务平台。

如果在关键的数据审核方面,没有专门的工具来监控和分析标注结果和指标,那对数据质量的把关,就仍旧只能沦为靠“老师傅”眼力见的作坊式水准。

因此,越来越多的国内企业,如百度、龙猫数据等,都开始利用机器学习和人工智能技术,提高数据标注的效率和质量,实现人机协作的模式。

由此可见,AI标注的出现,并不是国内标注企业的末日,而只是一种低效、廉价、缺乏技术含量的劳动密集型标注方式的末日。

展开全文
打开碳链价值APP  查看更多精彩资讯
声明:本文内容为作者独立观点,不代表碳链价值立场,且不构成任何投资理财建议。
0 0
AIAIGC

扫一扫,分享到微信

相关推荐

AI颠覆数学研究!陶哲轩借AI破解数学猜想,形式化成功惊呆数学圈 滚动

AI颠覆数学研究!陶哲轩借AI破解数学猜想,形式化成功惊呆数学圈

AI梦工厂 2023-12-06 滚动
AI
陶哲轩呼吁:数学家们一定要学会用AI了
AI新智界丨每日必读:微软 Copilot 将整合 GPT-4 Turbo;英伟达将为中国市场推出新品 滚动

AI新智界丨每日必读:微软 Copilot 将整合 GPT-4 Turbo;英伟达将为中国市场推出新品

Kyle 2023-12-06 滚动
AIAIGC大模型
未来的 AI 会是什么样子?
华尔街人才争夺进入白日化,得AI人才者才能得天下 滚动

华尔街人才争夺进入白日化,得AI人才者才能得天下

新火种 2023-12-06 滚动
AI大模型
过去几个月,华尔街各大银行一直在为AI业务招兵买马,想方设法吸引人才。

碳链快讯更多 ›

2023-12-05

贝莱德获得 10 万美元比特币现货 ETF 种子资金

2023-11-30

MicroStrategy 再次购买 16130 枚BTC

2023-11-28

李家超:打击无牌加密平台

2023-11-28

港媒:HOUNAX或为香港本地公司玖币

2023-11-28

Spartan Group管理合伙人:做空头寸信息遭某大型加密交易所泄露

2023-11-28

WSJ:美SEC仍在寻找 Binance.US 存在潜在欺诈的证据

2023-11-28

Vitalik 最新博文阐述对技术乐观主义、AI 风险、区块链和密码学等的看法

2023-11-28

美法官:赵长鹏必须暂时留在美国

2023-11-26

Arthur Hayes:美元流动性增长预示比特币将迎来上行趋势

2023-11-25

Web3 数字银行 iPeakoin 完成近千万美元 A 轮融资,真格基金领投

2023-11-24

盈透证券已获香港零售客户虚拟资产交易的许可

2023-11-23

新加坡拟于2024年中禁止加密货币保证金或杠杆交易,以遏制散户投机

2023-11-22

Mt. Gox 受托人:将很快开始向债权人偿还债务

2023-11-22

Sam Altman 将回归 OpenAI 担任 CEO

2023-11-21

武汉市公安局破获10亿元虚拟币洗钱案

2023-11-20

连线杂志:OpenAI 近 500 名员工威胁辞职,除非董事会辞职并重新任命 Sam Altman

2023-11-20

Tether 自愿冻结与国际犯罪集团有关的 2.25 亿枚被盗 USDT

2023-11-20

OKX已向香港证监会递交虚拟资产交易平台牌照申请

2023-11-20

华尔街日报:Bullish 已收购 CoinDesk 100% 的股权

2023-11-20

彭博:现货比特币 ETF 市场规模有望达 1000 亿美元

2023-11-20

微软 CEO:OpenAI 创始人 Sam Altman 和 Brockman 将加入微软

2023-11-20

Sam Altman回归失败 OpenAI董事会聘请Emmett Shear担任CEO

2023-11-20

彭博社:OpenAI 临时 CEO Mira Murati 计划重新聘请前 CEO Sam Altman 和前总裁 Greg Brockman

2023-11-20

知情人士:在被 OpenAI 罢免前,Altman 正寻求为新的人工智能芯片公司筹集资金

2023-11-19

OpenAI董事会:原则上同意Sam Altman回归

2023-11-19

彭博社:OpenAI 投资者正向公司董事会施压,要求恢复 Sam Altman 的 CEO 职务

2023-11-18

京港互联网 3.0 产业中心暨青年人才基地揭牌

2023-11-18

美 SEC 已推迟对 Global X 与富兰克林邓普顿的现货比特币 ETF 做出决定的日期

2023-11-18

OpenAI 罢免 Sam Altman 的 CEO 与董事会职务

2023-11-18

富达已向美 SEC 提交以太坊现货 ETF 申请

2023-11-17

BitGo 首席执行官:美 SEC 很有可能拒绝一系列现货比特币ETF申请

2023-11-17

日本金融厅批准推出ODX数字证券交易所START

2023-11-17

资产管理公司 WisdomTree 再次提交现货比特币 ETF 的 S-1 招股说明书

2023-11-17

德国联邦议员支持比特币作为该国法定货币

2023-11-16

贝莱德向 SEC 提交以太坊现货 ETF 的 S-1 招股说明书,任命 Coinbase 为托管人

2023-11-16

NYDFS 更新加密货币上市和退市指导方针,要求更为严格

2023-11-16

Arthur Hayes:随着美元流动性上升,比特币等风险资产将继续飙升

2023-11-15

新加坡金管局宣布扩大资产代币化计划

2023-11-15

蚂蚁集团首次披露海外发展数据 营收规模同比增长300%

2023-11-15

马来西亚砂拉越州与蚂蚁数科达成合作 发展数字政务服务应用

2023-11-15

彭博分析师:美 SEC 将在 21 日前对 3 个比特币现货 ETF 申请作出决策

2023-11-15

Cathie Wood:Gary Gensler的政治野心是现货比特币ETF受阻的原因

2023-11-15

Blockchain.com完成1.1亿美元E轮融资,估值较去年3月下跌超50%

2023-11-15

港股上市公司博雅互动拟斥资 9000 万美元购买比特币和以太坊

2023-11-14

加密货币集团 BGX 战略投资 OSL 母公司 BC 科技集团,认购约 7.1 亿港元新股

2023-11-14

渣打银行推出区块链部门 Libeara,拟代币化新加坡元政府债券基金

2023-11-14

韩国金管局成立虚拟资产上币工作组,并开始规划加密货币上市和退市指南

2023-11-14

港股上市公司博雅互动寻求股东授权以在一年内购买至多 1 亿美元加密货币

2023-11-14

BC科技集团出售上海憬威90%股权,并继续短暂停牌以待新股份发行

2023-11-14

传统金融资产代币化公司Fnality完成9500万美元B轮融资,高盛和法国巴黎银行领投

推荐文章

  • Web3人的AI世界观:砸不掉我饭碗,干不掉我工作

    2023-09-12

  • 诺奖得主席勒:AI改变了投资格局

    2023-09-09

  • 蚂蚁集团蒋国飞:数字信任是加速产业协作的关键变量

    2023-09-08

  • 外滩大会今日开幕 近20位「两院」院士、诺贝尔奖和图灵奖得主齐聚

    2023-09-07

  • 富达投资:ETH未来走向通胀还是通缩

    2023-09-05

价值号更多 ›

深潮TechFlow
深潮TechFlow
文章: 305
  • 金融巨头PayPal入局,稳定币战事迎来转折点?
  • Apple 的 Vision Pro 问世, Web3 元宇宙面临复苏还是毁灭?
  • a16z 安德森:为什么 AI 会拯救世界
区块链骑士
区块链骑士
文章: 1416
  • 以太坊联创预测:美国将在未来全面拥抱Crypto
  • 90%的欧洲议会议员支持更严格的Crypto资产税收框架
  • 华尔街巨头富兰克林·邓普顿加入现货BTC ETF大战,能否打破SEC的批准僵局?
TinTinLand
TinTinLand
文章: 74
  • Vitalik Buterin 南洋理工大学演讲实录:“以太坊的过去与现在”
  • Layer2 之争——到底什么是 Layer2?
  • 数字主权的起点,DID 如何为数字居民提供身份入口?
换一批

热门标签

新基建 比特币 以太坊 DeFi 共识对话 区块链+ 美联储 央行数字货币 加密衍生品 AI 云计算 大数据 5G 政策 交易所 稳定币 电子支付 Libra 算力产业 联盟链 公链 区块链 加密货币 Nervos Cosmos EOS BCH STO 数字货币 去中心化

邮件订阅

及时、全面、专业、准确的资讯与数据,致力于为区块链爱好者以及数字货币投资者提供最好的服务。

App内打开

邮件订阅

及时、全面、专业、准确的资讯与数据,致力于为区块链爱好者以及数字货币投资者提供最好的服务。

Moshou

碳链价值是集资讯、行情、数据于一身的区块链信息服务平台,我们追求及时、全面、专业、精确的资讯与数据,致力于为区块链创新者和数字货币投资者提供优质的服务。

关于我们 加入我们 联系我们 隐私条款
微信公众号

扫一扫关注微信公众号

Copyright © 2018-2020 碳链价值 京ICP备18046423号
下载碳链App

下载碳链App

微信公众号

微信公众号

微信公众号

微信公众号

打赏文章作者

支付宝打赏二维码 支付宝扫一扫打赏
微信打赏二维码 微信扫一扫打赏

# 热门搜索 #

CBDC 比特币 DeFi 以太坊 区块链