“办公机器人的本质是替代公司白领对文字资料进行识别、理解与处理。”达观数据CEO陈运文在接受第一财经记者采访时表示,与人们日常聊天用到的口语文字不同,办公机器人需要处理的大多是篇幅较长的素材,包含目录、章节、段落等要素,更加强调逻辑性、勾稽关系。与英文相比,中文的文字处理更复杂一些,因为中文的词性比较微妙,在不同语境下表达的意思可能也千差万别,这就需要机器去不断地学习。
记者了解到RPA的核心能力分为两部分:一部分是可以模拟人的键盘和鼠标的操作;另一部分可以理解文字内容,进行相关的理解、分析和认知。对于前者所涉及的技术十几年前就存在,称之为“外挂”,外挂可以像人一样模拟账号登录上去,模拟去点击。不过,当年只是一个早期状态,只能做模拟人去玩游戏,今天用在真正日常的办公工作当中,模拟白领去完成白领的日常工作。对于后者,需要运用自然语言处理能力去对文字资料进行阅读、理解和分析。
与搜狗、腾讯、科大讯飞等竞争者直接面向C端市场不同,成立于2015年的达观数据,主要是面向B端,利用NLP、光学字符识别(OCR)、知识图谱等技术,为企业和政府机构提供RPA、文档智能审阅、智能推荐等智能产品,让计算机协助人来完成业务流程自动化,提高企业效率。
达观RPA机器人已经迭代到9.0版本,对各行各业文档理解能力不断刷新, 目前达观办公机器人可以阅读和处理合同、简历、财务报表、报关单、各类报告、公司公告、政府公文等40多种文档类型。
以检验一份企业招股书为例,在经过算法读取后,达观办公机器人会在运行界面右侧边栏标示出部分疑似错误数据。这些疑似错误可能是计算错误,也可能是数据内部的逻辑错了,计算机可以提示给财务人员,减少财务的工作量。同样的工作如果交给人类来做,需要花几小时,机器只要几分钟,常见文本的准确率约为98%。