立足东南亚,领创智信(ADVANCE.AI)要重塑数据标注行业-最极客

日前,百度在港交所二次上市,三位素人“敲钟者”中,来自百度山西数据标注基地的年轻妈妈郭梅引起了外界注意,和她一起AI数据标注师这个看起来偏“冷门”的职业,也首次为大众所熟知。其实早在去年2月,它的官方名称“人工智能训练师”就已成为新职业,并纳入国家职业分类目录,它是AI技术广泛应用所催生的新岗位。

百度为了做好二次上市这场“大戏”,包括郭梅的敲钟三素人都大有来头,从身份上来讲他们都和AI密切关联。数据标注师为何重要呢?打个浅显的比喻,如果人工智能是一条高速公路,那数据标注就是这条高速公路的基石,而数据标注师就是那群不分日夜夯实基石的几十万、上百万的“键盘军”。

人工智能大踏步的由概念到应用,数据标注这一行业也就被广为讨论。就在之前不久,聚焦亚太市场人工智能与大数据的中国出海公司领创智信(ADVANCE.AI)也首次推出数据标注业务,旗下上千人数的东南亚团队将开始为国内的人工智能行业服务。从百度到领创智信,从三四线城市到东南亚地域,随着中国在AI大国竞赛中的提速,围绕中国人工智能正在形成一个覆盖广大地域的产业生态圈。

大国AI竞赛,数据标注缘何重要

科学技术不仅可以改变生活,而且可以改变世界,未来是属于科技的时代,更是属于人工智能的时代。据艾媒咨询的数据预测,2021年全球人工智能市场收入规模或将达到12140亿美元,至2024年这一数字或达到39410亿美元。在这个迅猛的崛起过程中,将需要数量庞大的数据标注师作为支撑。

据相关统计预测,数据标注师与下游研发端人员需求的比例达到了惊人的1:100,因此数据标注行业也被称为新时代的“富士康”,足见该行业人员缺口之巨。

面对如此庞大的潜在市场,包括中美在内的大国之间,早已悄无声息的开启了关于AI的竞逐赛,美国由于经济基础较好,所以在人工智能领域处于领先地位,但随着中国综合实力的整体提升,很多专家学者预测在不久的将来,中国将会挑战美国地位争夺全球AI的NO.1。

这一切并不是空想,至少在科研方面国内并未落后,根据斯坦福大学人工智能研究所近期发布的数据显示,2020年AI期刊引用中国的研究论文的数量已经超越了美国。全球去年所发布的AI期刊论文中,中国占了18%,居次的是美国的12.3%,欧盟则是8.6%。而在最常被引用的论文中,中国首度超越美国,占比20.7%,美国为19.8%,欧盟则是11%。

以上数据仍只是局限在研究论文层面,也至少证明了中国人工智能部分领域和美国的差距并没有太大。

另根据中国信通院数据研究中心的测算,2020年中国人工智能规模占到全球市场规模的三成。以此为基数的话,人工智能未来竞争中,中国并非没有一战之力,至少很有机会坐牢全球AI实力榜前三国家的位置。只不过从研究到应用,人工智能比拼的仍是综合实力。美国人工智能科学技术之所以得以高产、高质,其背后是数据标注行业发达的功劳。

因为,数据标注既是人工智能产业的基础,又是机器感知现实世界的起点,可以说数据标注是人工智能的发展“基石”。

人工智能是让机器具备人类的思维和行为方式,而数据标注之所以重要,则因为它通过人类标注正确的数据样本,让AI机器学习成长的一种方式,从某种程度上来看,没有经过标注的数据就是无用数据。而数据标注的工作目前只能由数据标注师来完成的,数据标注师们要对世界上如汪洋一般的图片、语音、文本、视频等数据内容进行标注,充当着人工智能机器的“幼儿教师”,以此来提高人工智能的精准度和智能化水平。

以美国的发展路线来看,它们的数据标注主要是以众包和海外外包为主,以总部位于澳洲的数据标注上市公司为例,其在180多种语言的国家和地区拥有超过40万名合同工。该司服务的客户遍布全球,不少就是来自美国的人工智能企业。前两年又先后收购了一家位于美国硅谷的数据标注公司,和一家在印度有自己数据加工工厂的数据标注公司。

另外,如Facebook则将部分数据标注工作外包给了印度公司WiPro,后者雇佣了几百名工人为前者服务。而美国谷歌、微软、雅虎等科技巨头,也曾在非洲肯尼亚雇佣了大量的人力来做数据标注服务。

美国人力成本高昂,除了部分数据标注交给众包平台消化,科技巨头们把更多的业务外包给了海外地区,这种形式拥有更高的集中性。上面提到的美国人工智能“大厂”们往往需要多种类型数据,倾向于在第三世界国家地区寻找一家大型综合性服务商。这些服务商有较高集成性,通过网络与全球各地标注人员进行工作分包。

作为IT产业的起源国和霸主的美国,就是通过海外外包的形式来实现在“IT时代”的领先地位的,而印度则被称为“美国IT的后花园”。由于印度的劳动力成本较低,官方语言又是英语,整整一代人的时间里,美国科技公司一直将工作外包给印度,因此催生出一种“全球交付模式”,即先去客户的公司得到他们的要求,回到印度开发这个软件,全球交付,最后做一些维护。

此种模式在IT行业可以跑通,同理在以人工智能为主导的“新IT时代”也正在被复制,从东南亚到非洲崛起的数据标注服务产业,正在成为美国在全球范围内培养的下一个“印度”。

太平洋彼岸的中国,由于政策的倾斜和5G等相关基础技术的发展,人工智能产业也进入快速增长阶段。据相关数据显示,2020年我国新一代人工智能市场规模预计达到700亿元,庞大的市场规模,也促使我国的数据标注行业进入细分化阶段。

在国内,数据标注产业进驻了不少城镇和农村地区,在一些省份甚至还出现了特色的“数据标注村”。随着出海公司领创智信推出数据标注及采集业务,意味着,中国数据标注产业也意欲在全球范围内寻找适合自己发展的“AI后花园”。

人工智能即将到来黄金十年,数据标注师缺口将异常庞大。据阿里巴巴集团调研数据显示,预计仅到2022年,人工智能训练师国内外相关从业人数有望达到500万,如此来看,人工成本正在快速上升的中国,未来或也会把部分“压力”向周边国家地区外移。

东南亚会是中国“AI后花园”?

中国人工智能的发展,催生数据标注行业数百万人才的缺口。中国相比美国,在人力成本上是存在优势的。正因如此,美国人工智能巨头和数据标注企业大踏步全球化的时候,中国人工智能企业却是三条路并行。

百度、阿里等“大厂”,采取将数据标注基地“下放”三五线城市+众包来解决;而类似领创智信的中国出海企业,也正在东南亚地区“培育”后备力量。为何出现这种现象?

一、数据标注师被调侃,调教AI、月薪三千;数据标注师从名字上来看挺“高大上”,可由于是“劳动密集”的职位,他们工资普遍不高,月薪三四千就已经算是高薪了。其背后的原因在于,为了让人工智能更“智能”,需要庞大的人力去对如汪洋一般的各类数据进行不同的标注,基于工作的性质和成本考虑,数据标注师本身的薪资很难提高。

想要了解数据标注行业的劳动密集程度,可以举一个小例子,为了“调教”人工智能更准确的识别图片各类信息,或需要至少10亿张图片进行训练。怎么样才可以给这10亿张图片进行分类和打上标签呢?以一个人每天可以分类1000张图片来计算,10亿张图片需要一个人干上100万天,也就是2740年。

包括语言识别、图像识别、自然语言处理,数据标注师们需要使用标注工具通过分类、画框、标注、注释等,对图片、语音、文本等数据进行处理,“喂养”它们,以令它们能够胜任交通、金融行业、医疗行业、家居行业、安防行业、公共服务、电子商务等应用场景,这将是个超过人想象的工作量。

这直接决定了数据标注师行业平均薪金不会太高,否则人工智能将因为成本问题,永远无法落地到实处。

二、“大厂”三五线基地+众包方式的局限性;开头提到的百度山西数据标注基地,就是百度在山西省太原市建立的人工智能基础数据产业基地,按照百度的计划,未来5年,百度还将培养数据采集、标注专业人员5万人,阿里巴巴在贵州铜仁万山区也在做类似的事。即使如此,仍不能完全“消化”大厂数据标注的旺盛需求。

阿里旗下就有阿里众包平台,仅图搜测评任务就累计推出了近百万的任务量,将图片搜索的准确度从原有的30%提升到80%左右。百度旗下有百度数据众包平台,官方网站显示已有1万名专职外场数据采集员,覆盖40多个国家和地区,遍布全国300+城市。京东旗下的京东众智,也是类似的平台。

大厂们之所以都选择两条路走,一个原因是在三四线城市打造数据标注基地能在成本可控的前提下提供更为稳定的服务;然而,由于三四线城市人才普遍学历不高,另一边的众包业务可以吸纳在校学生的“闲散”人力,两者互为补充。要知道,数据标注虽被调侃为新时代的“富士康”,可该职业仍有不小的上手门槛和技能要求。

东南亚地区“AI后花园”与中国人工智能产业的联动,正在复刻当年印度与美国硅谷的关系;从上面能够看到,由于工作量庞大,决定了该职业无法开出足够诱人的“工资”。因此,在三四线城市构建数据标注基地和面向社会的众包模式成为大厂解决困难的两条路。而从领创智信的“出口转内销”身上,似乎看到了第三条路,市场对数据标注的旺盛需求倒逼下,将该产业南移到东南亚“消化”也正在进行着。

提起领创智信国内大多数网友是比较陌生的,这家公司在国内人工智能出海企业中却很有名气,该公司联合创始人兼CEO寿栋,是宾州州立大学计算机硕士和清华大学软件硕士;人工智能产品负责人王芳林,获得上海交通大学博士学位,并在哈尔滨工业大学获得硕士和学士学位,曾担任过NUS的研究员和Autodesk的研究科学家。

领创智信2016年成立后,先后在新加坡、中国、印度尼西亚、印度、越南、菲律宾设有办公室,服务超过1000家行业客户,于2019年9月完成了8000万美元的C轮融资,由高榕资本和新加坡淡马锡控股旗下兰亭资本参与领投。目前,团队有2000+名员工,其中有很多就来自腾讯、百度、华为、亚马逊等曾在互联网公司供职的行业人才。

该公司在东南亚主要聚焦人工智能(e-KYC,智能流程自动化,聊天机器人),风险管理(反欺诈,信用评分)和数字贷款解决方案三大领域,业务边界不断拓宽,由印尼逐步覆盖到菲律宾、印度、越南等国家。

去年6月份,其推出的数据标注与采集一体化服务,就是根据市场需求将过去人工智能数据标注与采集打包成新的业务线对外服务,其中包括图片、语音、对话、文本和视频数据的标注及采集。一方面,该服务面向出海东南亚等各国的中国人工智能企业服务,一方面也为中国人工智能企业的外包数据标注及采集业务服务。

不到一年时间,该公司在国内就拥有了不小的名气。我们知道,美国人工智能产业正在带动印度、东南亚甚至非洲等地数据标注外包市场,中国似乎也正在走向这个方向,这或是国内旺盛数据标注需求获得解决的另一条出口。

中国AI产业生态圈不可忽视的一环

近年来,中国企业纷纷进入东南亚市场,借“一带一路”政策,中国和东盟10国均获得了有目共睹的经济收益。数据显示,至2016年5月,中国和东盟国家的双向投资已达1600亿美元,双方贸易额也从1991年的79.6亿美元增长至2015年的4721.6亿美元。相信未来东南亚地区,将有更多类似领创智信的企业诞生。

为何这么预测呢?因为就数据标注服务的性质来看,东南亚外包模式有它自身的优势在里面。

1、同属汉文化圈的便利性,东南亚华侨规模全球第一;不完全统计,东南亚11国,447万平方千米,6.5亿人口,被看作是中国、印度之外的另一个巨大市场。在中国互联网企业全球化浪潮影响下,和“一带一路”扶持政策的推动下,“下南洋”正成为国内科技公司集体的共识,并且成绩斐然。目前东南亚市场上公认的十大独角兽企业中,中国企业通过资本、技术、经验等方式的加持,已经牢牢占据了半壁以上江山。

其实,任何国家企业进行海外拓展,本土化都是最先需要考虑的问题,内在文化的牵连度越高越容易成功。东南亚地区与中国接壤,可以说“一衣带水”,无论文化背景、风俗习惯皆比较相近,与中国一样过农历春节并有法定假期的国家中就包括越南、印尼、新加坡和马来西亚等。相比于美国、欧洲科技巨头,中国企业进行东南亚地区的拓展具备更多的便利性。

另外,不完全统计东南亚等国家地区华侨人数高达3千多万左右,是世界上海外华人分布最集中的地区。这也是中国企业在该地区发展相较顺利的原因之一,反过来讲,这些优势也使得该地区成为中国初级产业链外移的首选地。

2、成本优势;根据相关新闻报道,中国三五线城市数据标注员工资也在三五千,东南亚很多国家地区的平均薪金才不到一千。据英国人力资源管理顾问机构 ECA International 公布的一份《2020年世界薪资涨幅最高国家》报告显示,各国工人的工资中印尼最低108美元(约706元),最高272美元(约1780元);缅甸108美元;菲律宾最低135美元(约882元),最高265美元(约1733元)。

数据标注服务除了基础设备的一次性投入,大头就在工资上。领创智信的数据标注服务,企业每月能超过或累计超过5万人⺠币,就提供整套采集/标注的⽅案设计,所依凭的正是该地区的人力成本优势。如果该团队所在地在国内,这些钱甚至不够工人几天的工资。

3、人才优势;正是因为人工成本低,可以低成本雇佣具备一定学历的人员提供数据标注服务。以往印象中,数据标注师普遍学历不高、工作环境恶劣,不过这只是行业事实的一角。根据过往调查,数据标注师大多都需要专科背景,经过培训才能掌握通用型的拉框或打点任务。但涉及到医疗、金融、语言、法律等专业领域,都需要具备专业知识的数据师来标注,这关乎着人工智能在垂直领域应用落地。

印度能成为美国IT产业后花园,也正是因为该地区有班加罗尔大学、印度科学院、印度科学研究所、农科大学、国家动力研究所等教育研究机构,每年产出大量低成本的人才进入外包服务市场。

东南亚地区人才相关的优势有两个层面,一是东南亚互联网用户数量在2020年达到4亿人,意味着该地区70%的人口都是网民。二是该地区高等教育群体就业问题一直存在,几年前,越南国家统计局一份数据显示,越南越来越多的大学生毕业即失业,人数达到19.25万,占该国总失业人口的15%。去年印尼中央统计局一份报告也透露,截至2020年8月,该国失业人数也达到977万人,同比上年度增加了267万人。由于该地区大多数国家经济结构单一,许多高等教育人才面临着毕业即失业的困境。吸纳该地区人才为中国新兴产业服务,可以大大提高国内科技领域的全球综合实力。

4、品质优势;百度、阿里采取在三四线城市建设数据标注基地的做法,可以通过对某地区资源的集中倾斜,来实现聚集人才的目的。可这种方案,并不适用国内所有人工智能企业。而采用外包,往往面临着品质问题。领创智信在推出数据标注服务前,在印尼、菲律宾、越南等东南亚国家已经服务了几百家企业级客户,并有数亿次的产品调用量;稳定的AI团队和大学生为主人群组成执行团队,决定了服务品质上的保证。

据了解,领创智信专业的线下采集标注团队,已支持包括图片、语音、对话、文本、视频数据的标注及采集。通过自检、质检和抽检三重把关,多数任务达到99.8%以上的合格率,这或是它和国内数据标注企业竞争最大的优势所在。

《三体》作者刘慈欣曾说过这样一句话,要达到电影里面的强人工智能,在现在看来中间还有很多技术障碍。“现在的人工智能,前面有多少智能后面就有多少人工。”

国家十四五规划中重点提及人工智能,大国AI竞赛将是全面竞争,曾落后IT时代的中国,应该不会放弃人工智能这个难得弯道超车的机会。

而在人工智能在各个领域落地的过程里,将需要数量庞大的数据标注师作为后备军支撑。毋庸置疑,中国人工智能的大发展,不仅将带动着中国三五线城市的就业,拥有独特优势的东南亚市场,或也将成长为中国的“AI后花园”。