揭秘你不知道的AI数据：它们是这样加工生产出来的

2018-09-13

电脑报 2018年27期

去年的某一天，小袁被理发店老板开除了，原因是听力有限，耽误了工作得罪了客户……

这是“90后”小袁的第39次失业。在此之前，他在饭店做过传菜工、在工厂做过皮鞋、在广告公司做过牌匾、在奶粉厂装过箱子，却总是因为无法避险、难以沟通被辞退。“我是烫手的小袁，因为我是聋哑人，所以我总是会烫到身边的人，被扔出很远很远。”他用如此悲伤的文字描述自己内心世界。

终于，小袁在第40份工作，等到了他心中的渴望——挣钱不仅仅混口饭吃，还有做人的基本尊严。

他用一个月的时间，刻苦训练学会了用模板做数据标注，成了人工智能革命浪潮背后的一位“数据标注员”，为企业提供图像、语音、文本等的数据标注服务。“我很庆幸，也能成为一个在人工智能产业中有用的人。”

在人工智能全面影响社会和应用越来越普及， “人脸识别”、“自动驾驶”、“语音识别”等产业狂潮的背后，最重要的核心就是越来越庞大、越来越精准的数据——离开数据，谈人工智能应用无异于“无米之炊”。

“数据标注”，是将最原始数据变成算法可用数据的关键过程，是整个 AI 产业的基础，是机器感知现实世界的原点。而“数据标注员”，正是一个人工智能产业未被写出的幕后隐形故事：在中国，有10万的全职数据标注员，以及100万的兼职数据标注员，每天源源不断地用人工，为人工智能的发展供应最重要的“数据燃料”——在现有技术框架下，数据量越大，质量越好，算法模型就表现越好。

这100多万个标注数据的人，很多学历不高，却决定着中国整个人工智能行业的发展态势：他们之间，既有小袁这样生理缺陷者，找不到理想工作的职高学生，从工地辗转而来的新生代农民工，还有原来淘宝刷单的，赋闲在家的中年妇女……

流水线上加工数据

25岁的罗雪娇，正把手写体的古德文转录为印刷体字母，然后把转录出的这些文字发给OCR（光学字符识别）公司——这些被罗雪娇一个个标注出来的字母，将作为机器训练的数据材料。

这个工作并不容易，要知道，即便在德國，认识这种古老字体的人也寥寥无几，但罗雪娇却如同流水线上的机器人，需要每秒钟准确输入1个字母。

在罗雪娇的旁边，另一位同事正为路况图片中的各种机动车、非机动车、自行车和行人打标签、做标记，并标注行进方向和是否有遮挡——这将用于安防系统，甚至成为中国天网系统能2秒过滤全球所有人口的基础。

另一位同事，则在标记图片中汽车的可行驶区域，之后会用于无人驾驶场景的训练。他需要分毫不差地描绘建筑物的边缘，将静止画面中鳞次栉比的大楼一一分割，标注成不同的色块。

还有的正将雷达扫描出的障碍物3D线条一一还原成实物，长方体是建筑、绿色的是树木，这些内容会被用来训练雷达数据和真实世界的关联性。

他们这种介于手写录入和图像标记之间的工作，共同的行业学名叫做“人工智能数据标注”——尽管数据标注并不算一个完全新兴的产业，早在1998年“海天瑞声”就已成立，但彼时人工智能尚未兴起，数据应用也相对较少。

“2011年针对AI的数据标注开始出现，2015年真正开始，2017年有了大爆发。”一家数据标注外包公司的主管说。

人工智能浪潮催生了这一切，相关数据显示，2017年，仅北京中关村大数据产业规模就超过700亿元，贵阳则超过了1500亿元。联合国教科文组织信息与传播知识社会局主任英德拉吉特·班纳吉也认为，到 2030 年，人工智能将向世界经济贡献 16 万亿美元。

对于AI而言，优质数据必不可少，需要标注的领域也越来越多：自动翻译的语音识别、机场安检时的人脸识别、识别选取商品的无人商店、安全行驶的无人驾驶等等。

所以，就像传统工厂一样，一个叫“数据标注”的隐形产业正在迅速扩大，数据正在流水线上处理，被分块加工，然后应用到不同领域。

这是整个 AI 产业的基础，是机器感知现实世界的原点。京东众智一位高层人士对记者说，一张图片识别系统能瞬间认出某个物品，一套语音识别系统能瞬间读懂你说的话，其实也是一张张图片、一段段语音素材后天训练出来的结果。

“对图片标注仍然需要依靠人力。”上述高层人士表示，尽管互联网催生了浩如烟海的内容，但标注这件需要耐心和专注的“小事”，暂且还需要大量人力。“图片包含的特性太多，比如在不同光线下的拍摄，模糊、清晰等等。即便在对5000万张图片进行归类之后，也只有几种特性被准确地标注出来了。”

关于“数据标注”，上述京东众智高层人士打了一个形象比喻：和小孩一样，要认识一个足球，你不能告诉它是“圆形的”、“用脚踢的”、“黑白相间网格的”，最简单最常用的办法是，找来一个真实足球摆在小孩面前，告诉他“这就是足球”，没有真球，用图片或视频也行。试过几遍就会发现，孩子就能“自然而然”地认出足球。

机器也一样，工程师想让 AI 准确识别出足球，最好的办法不是用代码来描述足球，而是直接找来很多张带有足球的图片，用 AI 能读取的方式把图片、视频里的足球“标注”出来，扔进 AI 模型训练，之后它“自然而然”就获得了识别足球的能力。

和小孩不同的是，机器需要在不同场景、不同角度下反复学习，这个漫长的教授过程就是罗雪娇们在 AI 产业中的位置——标注大量用于训练机器学习模型的数据，让机器越来越像人。

一个让人崩溃的“辛苦活”

通常而言，数据标注得越准确、数量越多，模型效果就越好。自然，产品的效果就会更好。

对罗雪娇而言，她必须保证给机器的标注数据达到 90% 以上精度（即是指标注的正确率），否则最直接的后果是机器也会跟着犯错，这对于机器学习将毫无意义。

90%的精度，意味着100 个点里有两个点错误，就会被打回。罗雪娇遇到过一次“让人崩溃”的经历，那是一张人物群体站立图，只要露出了头、脖子、胸口，罗雪娇就要从图片的左上角开始画矩形，框住这些动作、着装完全一致的人。重复拖动50个框后，要再放大这些带有蓝色阴影的矩形框，从头到四肢标注完每个人的骨骼点。最后，600多个点密密麻麻地落在了那张图里。

这个项目让她不记得重复了多少次，“拉框要求十分精细，偏差丝毫都不行。最后无论是滴眼药水，还是冷水洗脸，拍打脸部、揉眼睛，都没有任何作用，只剩下流眼泪了。”罗雪娇说。

“有些任务图上密密麻麻的点，看两个小时以上眼睛绝对会花掉了，只有要求员工不断克服人本身的一些‘消极因素’，才能避免标错数据。”数据标注公司、BasicFinder创始人杜霖说。

其实，看似简单的操作，要达到 90% 的精度对大多数标注者来讲却是天方夜谭。据了解，很多兼职标注团队最高精度只能达到 70%，即便是在全职、全把控情况下，很多项目只能达到50% 的精度，基本上承接的每个项目都需要重复三次以上才能达到 90% 的精度。

但现在，越来越多的客户要求达到95%甚至97%的精细化标注。“95% 以上的准确率是理想情况，但从 95% 提到 97% 所花的成本就不再是一两倍了，可能是100 倍。”杜霖说。

每个行业人士都认为这是一个让人崩溃的“辛苦活”。提起“数据标注”四个字，2002年成立，来自上海的华院数据的首席科学家尹相志不禁苦笑：几个月前，华院数据举办过一次大数据应用比赛，在“通过卖场货架图片自动计算产品的货架占有率”这项测试中，她们拍摄了1600多张真实的货架图片作为原始数据，为了让比赛的难度不那么“变态”，她们还为选手们提供了“精细化标注”后的货架图片——也就是货架上每一包紧挨着的零食、泡面，都要沿边缘仔细划分。

最终，这一千多张图片的标注耗费了12个人大半个月时间，负责标注工作的组员“几近崩溃”。

另一个例子是，李飞飞创办的Image

Net，是目前世界上图像识别最大的数据库，拥有1500万张标注图片，不过大部分人不知道，这是来自167个国家的48940名工作者，花费了2年时间，清理、分类、标记了近十亿张通过互联网搜集到的图片，才得到这个有1500万张图片的数据集。

“无论国内外，情况都差不多。一旦要求质量，每个人的产出量就不会太多。熟练者平均一天可以标注40张图片，前提是只需要为图片中的物体打框、标注类别和前后关系。如果涉及刻画建筑物边缘等复杂细节，一天标注10张已是极限。”一位数据标注行业人士说，看似简单的数据标注背后，其所耗费的时间与人力，远非一般项目可比。

在高质量数据标注不容易，同时又决定了一家人工智能公司竞争力的情况下，国内外大大小小的科技公司都开始用另一种方式，来完成这样细碎的任务，以获得更细致、更准确的数据。

AI时代的“富士康”

这种方式，就是外包。

实际上，无论是Google Open Image

Datasets中的900万张图片，还是YouTube-8M中800万段被标记的视频，这些精心标记的数据，大部分是由亚马逊劳务外包平台“Amazon Mechanical Turk”（以下简称AMT）上数十万名注册用户花费2年时间完成的。

科技网站TechRepublic的一篇文章描述称：这些分布在全球各地的50万名工人，昼夜交替、时常待命，对数据进行手工输入、分类，区分出下一张照片中是否有“狗”，语句中的“bass”到底是低音还是鲈鱼。

文章评价称，人类变成投喂机器的流水线工人，亚马逊AMT也顺势成为AI时代的富士康。

在国内，人工智能创业公司、BAT同样采用了目前数据标注行业的主流模式——“外包”。某数据标注公司负责人就透露，BAT、商汤、旷视、云从科技这类大的人工智能公司，一年在数据上的外包支出高达数千万元。此外，学术团体、政府、银行等传统机构的需求相对较小但有不断增长的趋势。

“按照人员规模划分，现在的数据标注行业分为小型工作室（20 人左右）、中型公司以及巨头企业。”京东金融众智平台项目负责人对记者表示，而从外包方式来看，也分为“众包”和“工厂”两种模式。

众包（Crowdsourcing）平台是《连线》（Wired）杂志2006年发明的一个专业术语，用来描述一种新的商业模式，即企业利用互联网来将工作分配出去、发现创意或解决技术问题。

京东金融方面提供给本报的数据显示，2018年1月，京东金融发布国内首个聚焦人工智能领域的数据众包平台——京东众智，通过聚合拥有碎片化时间和闲暇时间的普通人，为企业提供图像、语音、文本、视频的数据标注等服务。

“百度众包”、“龙猫数据”、数据堂等同样是这个模式。去年11月，龙猫数据宣布获得3370万元A轮融资，且用户量达到百万级，为百度、腾讯、小米等数十家科技公司提供数据标注业务。数据堂则成立于2011年，并在2014年12月10日成为第一家在新三板上市的数据标注企业。

记者观察发现，无论是百度众包，还是京东众智、龙猫数据、数据堂，其官网首页都有明显的 “任务简单、轻松赚钱”广告，其实质都是把任务转嫁给网民——某知名数据众包平台就称，其拥有超过5000名数据标注专员，上十万数据标注兼职人员，单日可处理超过200万条数据，能稳定提供数据标注服务。

“亚马逊AMT也是如此，每天会发布任务给墨西哥以及印度兼职人员，但很多高精度工作是不适合众包的。”在杜霖看来，由于参与众包标注的工作者数量很多，专业背景和工作能力参差不齐，其标注质量也并非所说的那么可靠，一些任务收集到的标注内容中存在噪声甚至错误，不能直接作为正确的标注使用。

以定制为主的数据标注“工厂”模式应运而生——也就是自己经营团队，成为一个上游，对整个流程进行控制。

BasicFinder采用的正是“工厂”模式，其注册成立于2015年， 2017年3月份完成了一千多万元pre-A轮融资。目前与二十來家“数据工厂”有长期业务合作，这些数据工厂有些是参与投资，有些是深度合作，少则几十人，多则二三百人。

而具体到标记过程，杜霖表示都是流水线式的，从最前端的任务定义、采集数据，到中间的清洗、加工，以及后端的质量检测、训练迭代等全部环节分开作业，并开发了一套系统辅助人工提高效率。

算上合作的周边工厂，杜霖的公司已经有 2000 多人，他们可以同时进行 20 多个不同项目的标注。在“工厂”内部，如同传统制造加工业一样，这里的各个小组都有自己的管理者。管理者之上是项目经理、高层管理者。员工“生产”的内容会经过质检人员的核验，全部合格后才会最终交付项目方，以便保证稳定的标注效率和质量。

同样，受困于人力成本，“工厂”很多时候不得不把一些业务外包给小团队，因此在这些相对规范的机构之外，还游离着众多规模不等的“小作坊”——在京东众智负责人看来，这同样是一个短板：“小作坊没有标注工具，而工厂更多是流程化操作，缺乏合理的运营模式。”

摇身一变都做AI数据标注

外包的兴起，让数据标注员成为一个热门行业——相关数据显示，截至2018年1月，目前中国有10万的全职数据标注员，以及100万的兼职数据标注员。

“在提供无差别人力劳动这件事上，大家都没有门槛。原来干淘宝刷单的、送快递的、赋闲在家的大妈，现在也能摇身一变做AI数据标注。” 杜霖说。

无从统计那100万兼职数据标注员都来自何方，但数据标注工厂，目前多集中在贵州、河北、河南、山东、山西等地区，这和传统制造企业富士康契合——算法公司和人才多集中在北深杭等科技核心区域，而作为一个“劳动密集型”的中低收入行业，数据标注人员散落于三四线城市。

在距离“大数据之都”贵阳市中心50公里的惠水县百鸟河数字小镇，有一个规模500人的“数据工场”，合作对象包括百度等AI巨头，500名数据标注员中，近一半是隔壁一所扶贫高职“盛华职业学院”的学生。

除上课外，这些不懂AI的学生每天有大约6个小时可以工作，“易于管理、尽职尽责”是该数据工场负责人给这些学生的评价。对于当地政府和学生而言，这是一件双赢的事：学生们大多来自贫困山区，在数据加工公司兼职赚来的钱不仅足够生活，有些学生还会拿出一部分补贴家用。当地媒体《贵州日报》称，未来三年百度将在百鸟河基地完成2萬小时的数据加工，直接解决1000人就业，促进惠水县每年近5000余名大学生优质就业。

作为一个劳动密集型行业，门槛并不高，几万元启动资金，就可以在四五线小城组起一个“工作室”。在河北衡水，原来在化工厂上班的小苏，带着原先 30 多人的销售团队转行数据标注，队员小的 20岁不到，老的超过40岁，共同点是都不明白什么是AI。

高中学历是小苏在招人时的最高期望——在行业中，这个招聘标准已经算是较高水平，在某些众包平台上，有的标注者只有小学文凭，在北京的全职工厂中，最高学历是大专或者中专。而在京东众智平台上，则重点强调在众智工作的残疾人士比例，截至目前，在京东众智平台上从事数据标注工作的总人数已达到30000人，其中残疾人士1000人左右。

在这个行业，理想标注精度和学历没什么关系，而且操作非常简单，经过培训，谁都能做——一家数据标注公司的高层人员就表示，一个农民在标注方言语音时，可能会比不懂这种语言的大学生还好。

事实上，对发布任务的甲方公司来讲，谁来标注、学历高低、如何管理这些都不是他们需要担心的问题，成本和按时保质交付才是核心。

某数据公司的主管说，通常数据工厂需要处理的客户订单往往以万为单位。比如客户要求 6 万张图片，7 天内完成标注，理论上这个订单需要 200人左右，共同机械般工作 7 天才能完成。

但部分AI公司却过分压低预算，把项目外包给一些不靠谱的团队，工期又很短；这些团队做不完、做不了，又会把任务转包给另一些小团队，或重新找到大的数据标注公司，使质量和交期都无法保证。

这种情况下，层层外包也就出现了，“小团队只能接二手甚至是好几手的项目，一手项目就像江湖传说，听过没见过。”曾做室内装修，现在转行做AI数据标注的小何说，他们的项目都是从小公司手里接的，连发包方的名字都不知道。

“数据标注行业比较混乱，没有一个标准，低价竞争和行业不规范，导致层层外包是行业的噩梦。”京东众智平台的负责人李工说。

甚至，这还可能涉及欺诈。“我们这边刚收到的上家发来的一个数据标注任务，到公司应该是四五手资源了。公司为了节约成本让我们在网上发帖招收大量任务标注员，然后剩下的就能想象到了。”7月4日，某数据标注公司一位内部人士老柳对记者称，公司以试题的形式要求兼职人员完成，第一次给你打回去，然后让你反复的试题，最后合格了，我们再以各种理由推托拒绝付酬。

“甚至，人们不会想到的是，兼职人员做过的题，我们自己改动下也能节省很多时间。”老柳说。

他们也有自己的无奈，一手的项目在谁手上，价格多高，会经历多少层级，每层有多少利润，都是谜。对小团队来说，层层外包下来，其实没什么利润了，“比如，一个拉框平均4分，一个人一天最多能做4000个，一共160元。过关率90%，再除去审核成本，再给每个标注员每天发100元左右的工资，平均下来工作室每天也就从每个人身上赚20元，公司都亏损了，还拿什么去付给兼职的呢？”