【速看料】千亿ChatGPT的狂欢和月薪3K的数据标注员

时间:2023-03-03 08:48:51       来源:钛媒体

千亿ChatGPT的狂欢和月薪3K的数据标注员

鞭牛士


(资料图片)

· 2023.03.03 09:00

微信扫码1

我们在惊叹人工智能的突破和背后的技术成本时,在追捧OpenAI 2000亿人民币的估值时,不应该忘记背后千万的数据标注员。

图片来源@视觉中国

文 | 鞭牛士,作者 | 何蕾

ChatGPT爆火后,AI行业开始了新一轮“抢人大战”:

王慧文个人出资5000万美元,打出“AI英雄榜”,要招募业界公认顶级研发人才;猎头疯狂挖角硅谷华裔技术大佬,跳槽薪资200万起;“10万月薪抢人”,脉脉创始人兼CEO林凡称,国内AIGC行业也在招兵买马,年薪百万、16薪成为“标配”。

巨头喊话、热钱涌动,中国版ChatGPT,将诞生在这些顶级VC、顶级AI人才手中。

但与此同时,一个和ChatGPT紧密相关,一个相对低廉、不稳定的职业——数据标注员,也引起了小范围的关注和讨论。

他们被誉为“AI训练师”,但他们的工作重复、机械、枯燥。

他们是AI行业的“劳动密集型”企业,他们被放置在无人问津的角落,推升了这次ChatGPT狂潮。

AI训练师?

“什么AI训练师,我们就是纯体力活。”何文新对数据标注行业的总结是:无前途,无发展,工作量大,工资低,“还不如电话销售。”

什么是数据标注?

目前“深度学习”是主流的训练AI模型的方式,但AI不会自动识别语音、图片、文本、视频等,这时候就需要数据标注员,对数据进行加工处理,将一般数据变成AI可识别的数据。

比如,服务自动驾驶公司的数据标注员,每天工作就是按照要求,把不同图上的行人、动物、车、树木等“框”出来,以便“喂养”AI模型。而数据标注的类型有图像标注、语音标注、3D点云标注和文本标注等。

简而言之,数据标注员在创造喂养AI的养料。从工作产出来看,数据标注员确实可以称为AI的老师。

数据标注工作并不难,只需要一台电脑,一个鼠标;简单培训后,就可以上手。但是,这个工作并不轻松,需要耐心和细心。

“很累,一整天要盯着电脑。”何文新称,“标注”工作重复繁琐、没什么技术含量,但也有质量要求,标注错了、标注范围大、标注不够仔细等,都会被审核打回去重新做。

“很简单,但也很难。”宝妈lili在网上吐槽,因为经常面对拉伸图,很多图片根本看不清,容易做错。

和AI行业的高薪相比,数据标注员的工资并不高。

“一张图9毛钱,一天做100张。”lili称,如果都合格,一天能赚90块。

“不同的标注价格不一样。”何文新称,他当时的工资在3000左右。基础的数据标注员月薪大部分在2000-4000元之间,但因为标注的速度、质量问题,“很难拿到当时面试跟你承诺的工资。”

鞭牛士在一些招聘网站上搜索“数据标注”,薪资区间在2000-8000之间。一些特殊的标注,比如小语种、高精制图等,薪酬会更高。

2020年2月,“人工智能训练师”正式成为新职业,纳入国家职业分类目录。中国信通院报告提出,“现阶段AI应用研发,数据标注是根本,10年之内都要依赖于标注数据”。

ChatGPT的“数据标注”壁垒

今年1月,美国《时代周刊》报道称,ChatGPT使用了低廉的肯尼亚外包劳工,对庞大的数据库手动进行数据标注。

打造了ChatGPT、估值飙升至300亿美元的OpenAI,是否存在“剥削”廉价劳动力的问题?

为OpenAI提供数据标注服务的是总部位于旧金山的Sama,Sama在在肯尼亚、乌干达和印度雇佣员工,服务Google、Meta和微软等客户。

据爱范儿报道,OpenAI在2021年底与Sama签署了三份总价值约20万美元的合同,为数据库中有害的内容进行标记。

根据合同规定,OpenAI将为该项目向Sama支付每小时12.50美元的报酬;但Sama支付给数据标注员的时薪只有1.32美元~2美元。

这些数据标注员,每9个小时要阅读和标注150~200段文字,最多一小时要阅读和标注超2万个单词。

并且,因为他们标注的是互联网上的“有害的内容”,比如自杀、酷刑等,大部分标注员受到持久的心理创伤,甚至出现幻觉。但Sama公司却拒绝为他们提供一对一的心理咨询。

这些数据标注员,对ChatGPT而言意义重大。为了让ChatGPT成为一个适合用户日常使用的聊天机器人,一个好的学习数据源非常重要。

比如,ChatGPT的前身GPT-3,就存在暴力、性别歧视等言论。用户在对话框中发送“我应该自杀吗”问题,GPT-3回答“我认为你应该这么做”。

在更早的2012年,清华大学图书馆机器人“小图”,因为学习了网友太多“脏话”,被强制下线。当时有媒体报道,小图至少学会了4万条不良信息。

AI自身并不能判断善恶,需要人为干预,标注、过滤掉一些“特殊数据”。为此,OpenAI建立了一个安全系统,这就是Sama和数据标注员的工作:给AI提供标有暴力、仇恨语言等标签,AI就可以学会检测这些内容,并将这些不良内容过滤掉。

除此之外,一些专业领域的信息,也需要专业的标注。这也是为什么ChatGPT在回答医学等专业领域问题时错误百出,因为它还没有精确地相关数据“喂养”。

实际上早有业内人士分析,ChatGPT的算法并不神秘,比如公开的成熟的自回归语言模型、强化学习的PPO算法等;但数据,是ChatGPT真正的优势。

“ChatGPT通过抢先开始公测,收集了大量的用户的使用数据”,这也是ChatGPT独有的、宝贵的数据。

和算力的“军备”竞赛不同,数据会有滚雪球效应,只要ChatGPT仍然是最好用的语言AI,就会一直保持先发优势,后来者会越来越难追上。

ChatGPT,已经建立起了“数据壁垒”。

而近期才开始官宣的“中国版ChatGPT”,除了要加强在算法、算力的投入,中文语言数据的处理,中文敏感词、有害信息的过滤,也需要大量的投入。

如今,ChatGPT掀起人工智能新浪潮,最底层、最边缘的数据标注员是否会有新的待遇?

国内数据标注乱象

据第一财经报道,中国的数据标注行业最早可追溯到2005年,著名计算机视觉专家、人工智能专家朱纯松在湖北鄂州创办了莲花山研究院。

中国信通院报告指出,2015年,随着人工智能巨头的崛起,数据标注和采集需求激增,市场真正意义上开始形成。

2016年,AlphaGo横空出世,人工智能开始商业化探索,相应的数据服务公司也迎来了一波发展高峰。

人工智能公司发展波折不断,数据标注行业也处在早期的蛮荒阶段,存在分散、效率差、标注质量参差不齐、市场需求不稳定等问题。

何文新等数据标注员有特别直观的感受。能不能拿到稳定的项目,是一个外包的数据标注公司能否存活的关键。

“我们公司比较小,很难拿到一手的项目。”何文新称,他们拿到的可能是层层外包的项目,价格比较低,而且极不稳定,“有时候项目没做完,公司就没了。”

而一些数据标注公司在招聘兼职数据标注员时,会强调薪酬分两次结算,“次月和6个月后各结算一半”,因为这是甲方的结算习惯,一些数据公司并不会提前“垫付”薪酬。

因为没有什么门槛,十几个人也能攒出一个团队,因此,数据标注公司质量层次不齐,行业竞争也异常激烈。

据第一财经报道,2018年,科大讯飞旗下的众包平台“爱标客”上,一些简单的打框和转写校准项目,时薪在25到40元之间;到2021年底,时薪就降到了10到15元,“有时候可能连10元都不到”。

并且,数据标注行业还存在一些招聘骗局,比如打着招聘的名义,骗求职者缴纳高昂的培训费等。

而数据标注员,也是人工智能行业中,最不稳定、最容易被取代的角色。

2022年6月,特斯拉在全球开启了裁员计划。其中规模最大的一次裁员,是解雇了200名美国员工。他们大多数是小时工,负责自动驾驶数据标注。

有媒体分析,特斯拉这次裁员的原因是这一工作技术含量不高,操作起来比较简单;并且特斯拉的自动化数据标注有了进展,可以代替人力完成部分工作。

目前,何文新已经从数据标注公司离职,换了新的行业。工资低、累、没有晋升空间、没有学到东西,是数据标注员离职的主要原因。

但是,除了这些问题,数据标注员的薪资,在4、5线城市依然有竞争力。

实际上,因为属于“劳动密集型”产业,一些地方政府对数据标注产业抛出橄榄枝,成为解决当地就业、扶贫的优质项目。

另一方面,因为门槛低、操作简单,数据标注员也成为残疾人友好岗位,“边码故事”曾报道残疾人成为数据标注员的故事,“一台电脑就能赚钱是之前想都不敢想的”。

而一些数据标注公司的推广视频下面,有不少用户留言咨询,想要加入。

在面对使用廉价劳动力质疑时,OpenAI回应称,他们支付给Sama的费用几乎是东非其他内容审核公司的两倍;赚差价的Sama则称自己是“有道德的AI公司”,已经帮助5万多人摆脱了贫困。

据国盛证券估计,类ChatGPT的大模型训练一次就要烧掉200万-1200万美元,仅每日的电费消耗就高达4.7万美元;2022年,OpenAI公司净亏损高达5.45亿美元。

我们在惊叹人工智能的突破和背后的技术成本时,在追捧OpenAI 2000亿人民币的估值时,不应该忘记背后千万的数据标注员。他们在聚光灯外,如一叶叶扁舟,飘荡在人工智能蓝海上。

(应受访者要求,本文人名为化名。)

投稿 chatGPT 大数据

43篇资讯

16关注

鞭牛士

关注

这个人很懒,还没有个人签名。

最近资讯

国产ChatGPT扎堆,又是一场元宇宙式狂欢?2023,国产新能源汽车仓皇应战特斯拉ChatGPT狂飙,从代写论文到拉升A股 本文系作者鞭牛士授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接。 本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。 想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里。

敬原创,有钛度,得赞赏

568人已赞赏 >568人赞赏钛媒体文章

钛粉30456 赞赏了

不与雅迪、小牛抢饭吃,海归电动两轮车品牌「号外」卷...

2023-02-22 14:32

钛粉79015 赞赏了

IQAir Atem X空气净化器评测:旗舰级家用...

2023-02-17 17:42

钛粉41049 赞赏了

负债高企,深陷亏损泥潭,科陆电子叒要募资补流

2023-02-14 18:37

钛粉82099 赞赏了

从卖火柴的小男孩到“宜家掌舵者”,商业天才的经营哲...

2023-02-11 18:47

正见Tru... 赞赏了

SaaS十词,“点火”2023

2023-02-03 17:40

小团子97... 赞赏了

一文速览【2022 中国经济年报】:人口首现历史性...

2023-01-18 02:02

钛好257... 赞赏了

国产电动车的沸腾2023:走向更残酷的牌桌

2023-01-16 07:45

钛粉61583 赞赏了

华宝新能:坚守长期主义,缔造商业之上的价值

2022-12-31 00:06

钛a66t... 赞赏了

跨界咖啡,是个好副业吗?

2022-12-30 17:11

赚赚 赞赏了

小红书给流量“削藩”

2022-12-30 00:36

钛粉81950 赞赏了

东北下岗往事轮回,一个家庭时隔20年的两次失业创伤

2022-12-20 10:24

钛富279... 赞赏了

蜜雪冰城「向下」的烦恼

2022-12-09 08:48

钛粉41450 赞赏了

遭阿里减持8000万股的商汤科技,何时盈利?

2022-11-24 22:45

钛粉81947 赞赏了

历史进程中的茅台与6次暴跌

2022-10-28 12:23

钛粉48375 赞赏了

7种傲慢与偏见,导致互联网人改造传统行业失败

2022-10-20 19:53

想暴富25... 赞赏了

7种傲慢与偏见,导致互联网人改造传统行业失败

2022-10-20 17:18

钛粉61006 赞赏了

7种傲慢与偏见,导致互联网人改造传统行业失败

2022-10-20 16:41

AIBEN 赞赏了

月费不到100块、1分钟出图,AI作画要打翻多少设...

2022-10-17 15:10

钛粉36011 赞赏了

身处风口却“一桩难求”,一文看懂充电桩产业全景|钛...

2022-10-14 14:27

钛粉36716 赞赏了

身处风口却“一桩难求”,一文看懂充电桩产业全景|钛...

2022-10-14 14:24

钛精378... 赞赏了

那些"上不了席面”的私房美味

2022-10-10 13:04

钛粉18902 赞赏了

中集李凌寒:数字化供应链的动因、要素及实践|202...

2022-10-01 11:40

有颜有钱5... 赞赏了

中集李凌寒:数字化供应链的动因、要素及实践|202...

2022-09-30 19:02

钛粉29232 赞赏了

割韭菜、白嫖、疯狂AMA……在30多个元宇宙Web...

2022-09-15 15:45

钛小773... 赞赏了

沈抖发布百度智能云新战略,回答了“木星”与“蜻蜓”...

2022-09-10 09:33

钛粉07914 赞赏了

钛媒体Pro创投日报:9月2日收录投融资项目25起

2022-09-03 03:20

钛粉65687 赞赏了

银泰百货“破产第一案”背后:苦涩退场,西安城改的挽...

2022-08-19 17:41

钛粉61539 赞赏了

对话蚂蚁集团副总裁何勇明:“支付宝不对标抖音”

2022-08-06 13:53

钛粉60785 赞赏了

近10亿募资闲置理财如今又推14亿定增,泽璟制药持...

2022-07-27 14:44

在天空中自... 赞赏了

钛媒体Pro创投日报:7月21日收录投融资项目32...

2022-07-22 16:40

钛粉14772 赞赏了

寻找下一个“玻色因”,国货抗衰盯上了蓝铜胜肽

2022-07-22 10:47

单晶冰糖啦... 赞赏了

宁德时代依靠钠电池可以维持万亿市值吗?

2022-07-22 10:37

钛友趣64... 赞赏了

女性专属时尚座驾,欧拉芭蕾猫上市19.3万元起售

2022-07-12 23:58

钛粉93105 赞赏了

TapTap塌房,“中国Steam”的故事结束了

2022-07-12 14:02

已注销用户 赞赏了

【医疗健康周报】第26周:“康诺亚生物”获得1.9...

2022-07-07 15:05

钛粉97884 赞赏了

零和游戏与非零和玩家:InterSystems的数...

2022-06-29 22:21

钛粉97003 赞赏了

零和游戏与非零和玩家:InterSystems的数...

2022-06-29 21:58

钛粉97388 赞赏了

零和游戏与非零和玩家:InterSystems的数...

2022-06-29 21:50

钛粉11323 赞赏了

丰谷酒业换帅!李寒松出任党委书记、董事长

2022-06-28 17:09

钛粉97508 赞赏了

海外港口货物积压,商家提前备货,今年外贸旺季来得有...

2022-06-24 18:44

钛粉36186 赞赏了

习酒划转茅台集团财务公司5%股权,上市仍在“激烈博...

2022-06-21 15:25

钛粉66633 赞赏了

重新定义“一体化”?HR SaaS产品PaaS化之...

2022-06-16 08:51

碧天黄地 赞赏了

未来汽车如何实现创新与融合?几位大佬有话说

2022-05-30 21:37

钛友趣76... 赞赏了

批量招聘难题何解?他们发现了HRSaaS的新机会 ...

2022-05-26 23:38

单晶冰糖啦... 赞赏了

钛媒体华南中心成立 全财经战略布局再进一步

2022-05-25 11:30

钛粉89798 赞赏了

郑大一附院,一家“超级医院”的双面特写

2022-05-21 06:19

钛粉00698 赞赏了

大厂深蹲,时代向前

2022-05-19 10:27

刘成军 赞赏了

中国信通院院长余晓晖:加快构建我国特色的工业互联网...

2022-05-18 14:09

已注销用户 赞赏了

Netflix真的会为「卖广告」掏出真心吗

2022-05-17 10:19

钛田097... 赞赏了

黑海粮仓“起火” ,全球粮食失衡

2022-05-09 19:50 查看精彩文章,打开钛媒体客户端

挺钛度,加点码!

¥ 5 ¥ 10 ¥ 20 ¥ 50 ¥ 100

支付方式

确认支付

支付

支付金额:¥6

赞赏金额:¥ 6

赞赏时间:2020.02.11 17:32

账户【未登录】提示!个人中心将无法记录并同步您的赞赏记录,是否进行登录

直接赞赏 立即登录

分享文章

微信扫码1

Oh! no

您是否确认要删除该条评论吗?

猜你感兴趣

爆火一年后,露营进入洗牌期|钛媒体深度 获机构密集调研,工控龙头受到市场关注? 毛大庆:7天7大洲7场马拉松,留给生命一段遍及世界的足迹与回忆 上数解读:《数字中国建设整体布局规划》指引数据要素新赛道 “创新力”衰退,互联网平台经济迎巨考|钛媒体·封面 1亿利润上马百亿项目,拆解雄韬股份的多重“噱头”|钛媒体深度

分享文章

微信扫码 1

关键词: 千亿chatgpt 的数据标注员 最新消息 科技资讯挖掘 高效读科技