人工智能时代的OCR 从感知识别到认知理解

北青网2021-07-23

人工智能技术正在深刻地改变办公领域。

“数据作为新型生产要素,是构成数字经济的核心资源和重要基石,而办公场景存在大量数据,AI有充足的‘用武之地’,比如OCR光学文字识别、语音识别、图像识别等等,具有丰富的落地应用价值。”7月22日,在金山办公的技术开放日上,华南理工大学电子与信息学院教授、广东省琶洲实验室OCR中心主任金连文表示。

“文字识别技术,我们又把它简称为OCR,它跟云识别、图像识别等等这样通用的人工智能技术一样,是可以把我们非结构化的数据,比如说文档,转换成为结构化的数字化的数据,从而可以支撑各种各样的人工智能的创新应用,所以从这个意义上来讲,文字识别这样一项技术也是底层的OCR技术。”金连文说。

文字识别是最具有落地应用价值的人工智能的技术之一。“比如智慧办公,我们拍一张图片,通过OCR的技术就可以转换成一个可编辑的文档,这样就可以提升办公效率。比如在智慧教育当中的智慧阅卷,在智慧金融、交通、城市、旅游等等,包括电商、智能设备、互联网信息安全的内容审查等等,这么一系列的应用当中都有非常广泛的应用前景。”金连文举例。

文字识别是一个典型的AI的人工智能技术应用落地的场景。“实际上人工智能的技术在十多二十年以前就开始在OCR的技术领域当中得到了应用。”金连文说,包括人工智能的三个巨头,像Bengio、Yann LeCun、Hinton教授,他们在上个世纪90年代末期就开始用深度学习这样的人工智能核心技术来解决OCR当中的关键问题。但是从2012年开始,人工智能的技术才彻底在OCR领域中解决了大量的问题。

为什么过去这几年才把OCR里一些简单的感知问题解决呢?“首先是因为过去七八年以来,开始数据量不是问题了。其次是因为算力也跟上来了。有一个观点认为人工智能有三个要素:数据、算法、算力,这三个要素大家普遍认为它是人工智能的三个要素,我的观点是,有数据、有算力、有算法,大概是可以解决人工智能当中感知层面的问题,但是还有结构化理解认知层面的问题是不能解决的。”金连文认为。

什么是感知层面的问题?金连文举例,比如说做一个人脸识别、一个文字的OCR的识别、字符的识别,这些都是属于感知层面的问题,今天如果算力够、数据够,做一个人脸识别的引擎,或者一个简单的文字识别的引擎,已经不是太大的问题。

“但是有些问题是在感知层面解决不了的,所以我想提一个观点,人工智能可能还要加上知识,有了知识这样的因素,才能使得我们去解决认知层面的问题,这里讲的知识包括物理常识、领域知识、语义知识,以及包括从大量的海量的无监督的数据去学习到的背后的知识。”金连文强调。

为什么知识很重要?金连文举例:“比如我这里有一张图,这张图是一个烤肉火锅店,但是今天很多文字检测器没有语义支持的话,它可能检测出来的结果是这样的,肉和火靠得近,所以烤和肉就没把它连在一起,但是如果加上一些语义的知识,如果做一点理解的话,就不会犯这样的错误。”

金连文认为,人工智能进一步的发展,要把数据和知识很好地利用起来,才能更好地去解决感知层面的问题。基于感知方面的问题,实际上在领域当中也有很多学者开始相关的研究工作。

金连文团队在2018年就利用数学当中的路径积分的领域知识和语言模型知识去训练了一个连接手写识别引擎。从去年到今年也利用了相关的领域知识构建了一个不需要仿冒数列签名的笔记鉴别的识别系统。

“这些都是知识和传统感知的数据层面结合起来,可以更好地去帮助我们去解决实际的人工智能的应用问题。”金连文表示,OCR/CV领域和知识推理(包括NLP)不断融合的技术,应该是未来OCR技术中非常重要的发展趋势。

文/科技日报记者 马爱平

编辑/范辉

大家都在看