人工智能训练师是一个全新的职业,他们制定数据标注规则,再将数据“喂”给机器人,对其进行“调教”、不断优化,让机器人“通情理、懂人性”,更好地为人类服务。
Shana是追一科技的人工智能训练师,她以语言学的学科背景“闯进”了人工智能领域,从数据标注成长为人工智能训练师。在工作中,她赋予机器人“人格”,给企业客服配备了闲聊的服务功能,客户可以跟它调侃、闲聊,提升机器人写诗、做对联的技能,让它更通人性。
Shana是北方人,在北京待了三年攻读研究生,专业学的是语言学专业。在北京读书的时候,她曾在一家互联网巨头公司有过两段实习经历:一段经历是做产品经理,另一段经历是做数据标注。
坚决要进互联网行业
那时是2013年。“当时标数据标注是在NLP(自然语言处理)部门做的,算是开始接触这个行业。”与局外人认知不同,数据标注并不是理工科学生的天下,反而是文科生施展拳脚的舞台。Shana观察到,和她一同实习的小伙伴基本上是语言学背景的同学,“因为数据标注要求处理数据的时候比较细心,甚至有时需要一定的语言学背景知识”。
当时这份实习更多的是偏重技术性的操作,数据标注的规则已制定好了,实习生按部就班完成,没有太多主观能动性发挥的空间,“数据标注基于提供的语料,然后你在语料上做一定的处理,它的一个很重要的规则就是统一性,所以你不能够有更多的创造性”。
她感觉“AI落地生花其实也是两年前左右的事情”。刚刚毕业,Shana在深圳没有发现非常对口的人工智能方面的岗位,偶然的一个契机,她在朋友的推荐下,前往追一科技面试,然后正式开始了数据标注的工作,从而打进了理工科学生的领域。
成为人工智能训练师
工作后,Shana正式跨入人工智能领域,那时的她对技术的理解还比较浅。“我只是单纯地从兴趣出发,我学的是语言学,虽然不想做老师,但我还是希望自己的专业能够有所用。”在她看来,数据标注是给机器人提供语料,这属于机器人教育,它不是教人而是教机器人学习某个东西,这与她的专业相近,能让她发挥所长。传统语言学的研究一直处在一个不温不火的状态,但AI的兴起让我觉得传统语言学有了一个新发展的方向——怎么样把语言学研究的成果应用到机器人的教育当中来。这个方向其实也是Shana最感兴趣的一个点。
传统NLP需要词性标注、语法树的标注,这都可以用到语言学的一些东西,虽然用得比较浅,但是在深度学习领域可以怎么用?她也在思考,“最近发现机器人智能化的表现是趋向于用对话来解决问题,而不是像以前需要点击屏幕。智能化发展的一个方向是对话交互,那怎样可以增加对话的轮次,让机器好像有了主动意识,从而更好地实现人机交互,可以持续性地聊下去,这是一个难点”。比如,通过智能客服订机票或是询问某只基金的情况,这样的应用场景就需要开展多轮对话,因为这样相对复杂的业务流程不是简单的对话就能完成的。
Shana的工作主要是根据客户的需求对数据进行标注。这通常跟项目有关,有金融类型的,也有互联网的企业,也有传统企业。她的工作范畴也远超出数据标注,而是跨入人工智能训练师的全流程作业——首先要跟客户对接需求,明确要做一个怎样的机器人,然后需要跟客户去沟通训练机器人语料的问题,这需要保质保量,之后对数据进行清洗,再制定规则进行数据标注和训练机器人,这些都由AI训练师来做。
Shana从数据标注自然而然转身成为人工智能训练师。在她印象中,人工智能训练师其实也是大概两年前的时候才诞生的新兴职业,刚开始并没有AI训练师这个叫法,这个称呼是从一家互联网巨头公司传出来的。此后,人工智能训练师成为特定的一个岗位,这也是大量需求背后促进社会分工进一步细化。
如今,人工智能训练师成为一种炙手可热的新职业,人工智能训练师赫然出现在许多互联网科技公司的招聘名单之中。甚至有城市向人工智能训练师发出招贤令,获得高级专项能力认证的人工智能训练师有机会申请公租房及落户加分等政策福利。
让机器人更懂人性
人工智能训练师的工作说通俗点,就是把机器训练得更加“通情理、懂人性”,让它更加适应人类。
比如关于态度情绪标注任务,标注类型是情绪厌恶,“我讨厌你,你走开”和“哎哟,我讨厌你”(这是撒娇的语气),中文的文法表达多样,主体词组相同,而不同的语气和声调可能表达的意思却有天壤之别。人类很容易辨别,那机器如何通人性,懂得人类的情感呢?