白癜风的发病原因 https://disease.39.net/bjzkbdfyy/250516/v1vhwrv.html关键词:无人驾驶,数据产业,人工智能,机器学习,数据标注,数据工厂,数据民工
作者:金浓丨华高莱斯新技术与城市发展研究中心
从无人驾驶到AlphaGo,传统人工智能已经取得可观的成就,AI是否会让更多人失业也成为了讨论焦点。在彭博全球商业论坛上,拉加德援引了国际货币基金组织即将发布的一份报告中的数字:“包括AI在内的新兴科技将让全球30个国家和地区的万份工作消失。”但是我们正在看到,AI的发展也催生了像数据标注这样的新产业,这个产业的市场至少在最近几年内还会存在增长空间。
数据标注产业的诞生:源于统计学路径下的机器学习
1.目前,人工智能本质上是机器学习
人工智能(ArtificialIntelligence)较早的定义,是由约翰·麦卡锡(JOHNMCCARTHY)在年的达特矛斯会议(DARTMOUTHCONFERENCE)上提出的:人工智能就是要让机器的行为看起来就像是人所表现出的智能行为一样。然而,人工智能如今还是一个主观而模糊的概念,目前为止还没有统一的理解。发展至现阶段可分为通用人工智能(AGI,Artificialgeneralintelligence)和传统人工智能。
通用人工智能拥有像人一样的能力,可以通过学习胜任人的任何工作。霍金和马斯克认为的未来会成为人类终结者的人工智能是通用人工智能,甚至是更高级的强人工智能——不仅要具备人类的某些能力,还要有自我意识。但是目前对于通用人工智能的研究也并未取得突破性进展,AI毁灭人类更是一个“鬼故事”。
事实上,现在主流发展的传统人工智能,是基于机器学习特别是深度学习的人工智能,并已成为统计分析的代名词,而非一般意义的“智能”。因为统计学的归纳概括只能让计算机在特定的任务上做得越来越好,但并不能产生一般的常识推理能力,类似于罗素鸡。
机器学习的关键,在于数据规模及质量:
在机器学习系统中,算法本身只是系统的一部分,另一个部分是数据。目前的主流算法模型是“监督学习”,这种算法需要有标注的数据录入模型,对模型训练以优化模型的参数,训练后的模型可以进行推断,数据越多,机器学习的效果就越好。
拥有数据就像拥有矿产,是构建起竞争壁垒的关键,这是AI界最根本的竞争。业界的共识是“大量数据+普通模型”往往会比“普通数据+高级模型”的效果要好。初期具备算法优势的公司,会被后起具备数据优势的公司所碾压。
Google技术大牛JeffDean曾在公开课上展示过海量数据的训练结果,如图所示。横轴代表数据规模,纵轴代表准确率,蓝线是深度神经网络算法,绿线是传统训练方法。可以看到,神经网络算法中准确率和数据规模及质量持续成正比。
神经网络算法中准确率和数据规模及质量持续成正比,图片来源:智东西
2.数据标注:有多少人工,就有多少智能
但数据多并不意味着质量高,没有标注的数据可用性非常低。数据标注便是深度学习下的产物,常应用于文字识别、人脸技术、语义分析、自动驾驶、智能监控等领域,机器通过学习大量的标签数据对特征进行归类,才能做到自主识别并进一步作决策。如美国加州科技大学校长秦志刚教授所说“数据标注是人工智能产业的基础,是机器感知现实世界的起点。从某种程度上来说,没有经过标注的数据就是无用数据。”
那么数据是如何被标注的呢?数据标注之前首先要进行数据获取,获取途径包括从公开数据集、爬虫或专业数据采集等。其次要进行数据清洗,如去除无效的数据、整理成规整的格式,得到符合要求的数据。然后才能进行数据标注:算法研发人员会制定规则——如标注工具、方式,及输出格式,并会在试标阶段确定需求。数据标注员在标注数据过程中为了保密需求,通常会在指定的平台上用指定的工具进行标注,且数据不能存储在本地上。标注的数据类型包含图片、文字、语音、视频等,例如图片常见的标注方式包括打出特征标签的分类标注、应用于人脸识别或物品识别的标框标注、应用于自动驾驶识别中的道路边界区域标注,以及应用于人脸识别、骨骼识别等的描点标注等等。标注过的数据质量需要进行审查,审查维度包括正确率、精确度、完备性、一致性等,合格后的数据会重新传送到客户手中,然后,这些数据在经历模型训练、模型测试、反馈数据问题等过程后,会被应用到自动驾驶、AI安防、智能身份认证等新兴应用领域。
连续使用标记数据来训练模型,并不断调整模型参数以获得具有更高指数值的模型,图片来源:zhihu
此外数据标注对于准确度的要求非常高,例如在自动作出贷款决定的AI系统中,算法部分可能没有偏见,对个体完全公平,但如果算法访问的数据在标注上存在错误或偏见,在算法从数据中学习后,决定结果可能就做不到完全公平了——如果被用来作出决定的数据存在偏见,那么决定本身就可能存在偏见。而标注数据的准确度从95%提升到96%,需要团队多花费3倍的时间,由于一点细微的问题,整个订单都要重新返工。因此,数据标注圈里流传着这样一句话——有多少人工,就有多少智能。
从事数据标注产业的人是专门的标注员,也是你和我
数据标注行业的发展与AI产业发展呈现一致性:年,中国AI行业的起步,数据标注的外包市场开启,直到年行业发展真正开始,年下半年出现收缩,年,中国AI创业开始达到顶点,对数据标注的需求也迅速爆棚。根据智研咨询的行业报告,年我国数据标注与审核行业规模达到52.55亿元。根据BasicFinder的说法,人工智能公司的总支出中,目前有20%-30%用于数据。
数据标注行业内的数据标注机构主要有三类,一类是AI公司内部的标注部门,另外两类是数据标注众包平台,以及专门做数据采标的公司。
第一种是指由公司自建内部团队,来负责标注工具开发和完成大量数据标注任务,如小米、旷视、NVIDIA自动驾驶组等都有大量数据标注任务由公司内部完成。但大多数人工智能初创企业只有少数全职员工,为了集中精力研发,数据标注必须要外包出去。BAT及大型人工智能公司内部也无法完成所有的数据标注工作,例如旷视一年在数据上的支出有数千万。此外学术机构,以及政府、银行等都有数据标注外包需求。BAT和人工智能公司需求最大,学术机构次之,政府、银行等目前需求较小但不断增长,三类业务需求的比例为7:2:1。
第二种是众包平台,他们与需要数据标注的客户建立合作关系后,把任务分发给互联网用户,这些人多为兼职,形成“需求公司——众包平台——多个互联网用户”的模式,国内众包平台包括百度众测、京东众智、数据堂等。
世界上第一个众包平台亚马逊劳务众包平台(AmazonMechanicalTurk,简称amtrunk)年出现于美国,最初是为了解决亚马逊公司内需,后对外开放成为链接需求方、并面向个人的数据标注众包平台,平台可抽成每单任务奖金的10%,截至年底,该平台注册用户量达50万。年李飞飞带领团队创建的世界最大图像识别数据库ImageNet,其超过万被分类的图片便是依赖于AmazonMechanicalTurk上5万名用户耗时两年完成。
而有趣的是,MechanicalTurk(土耳其机器人)的名字早就剧透了人工智能训练的本质——年,匈牙利机械师发明了一个“能战败人类”的自动化机器MechanicalTurk,84年间击败了很多挑战者,包括拿破仑和本杰明·富兰克林,实际上这根本不是自动化的机器,它在比赛时内部藏着一位国际象棋大师,如同坐在电脑后面为AI进行数据标注的人。
Racknitz绘制的土耳其人横截面,展示了他认为操作员坐在里面的方式,图片来源:wiki
众包模式的最大优点是劳动力成本相对较低,如AmazonMechanicalTurk上价格最低的任务仅为1美分。但是众包模式最令人诟病的是质量不稳定、保密性差,因为从业人员以兼职为主。据“甲子光年”采访,业内人士估计中国全职的“数据标注者”已达到10万人,兼职人群的规模则接近万,因为许多互联网用户并未经过专业的训练,且非长期从事数据标注工作,因此众包模式普遍不被国内看好。
第三种是专门从事数据标注的企业或团队,被称为“数据工厂”,数据工厂里的全职标注员常被比做“数据民工”。“数据工厂”可直接与企业对接,或也可通过其他平台与需求方对接,优点是标注人员稳定、可与甲方即时沟通,易把控数据质量,一对一传递也降低了数据泄露的可能性。目前也有一些是工厂+众包模式的混合体,作为数据工厂可提供数据采集、数据标注、数据提取、数据校验、数据清洗一系列服务,并有自己的平台网站与需求方对接并提供众包服务,如龙猫数据、BasicFinder。
但事实上,如果将人工智能行业的发展比作高楼大厦的搭建,我们每一个人都参与到了数据标注这一搬砖的过程中。日常当你进行网站上的