2021年4月26日

汉王科技:突破关键技术,为中国数字经济加速!

作者 秋绚

4月25日至29日,以“激发数据要素新动能,开启数字中国新征程”为主题的第四届数字中国建设峰会在福州举办。

在此次峰会上,汉王科技打造的120平方米的“智慧数字”展区,集中展示企业在大数据数字应用、AI智慧建设等方面的前沿科技和最新成果。众多的“黑科技”不仅突出了数字科技的前瞻性与创新性,也呈现了后疫情时代数字经济的新模式与新场景。同时,在新基建的风口下,汉王科技“从数据到智慧”的战略蓝图也逐渐浮出水面。

从OCR到NLP

如今,数据已经渗透到每一个行业和业务职能领域,成为重要的生产因素。对于海量数据的挖掘和运用,加快建设数字经济、数字社会、数字政府,以数字化转型整体驱动生产方式、生活方式和治理方式变革,也正是当前新基建数字经济发展的核心需求。

汉王科技无疑是国内数字经济和数据应用的先行者,作为业界最早致力于OCR(光学字符识别)研发和应用的公司之一,汉王科技其中一项重要应用就是文档电子化。2013年,汉王科技将文档电子化的触角延伸至图书馆、档案馆、银行、医院、法院等多个国家级项目。但在这些具体项目的实施中,汉王科技也开始逐渐意识到,文档电子化的“江山”虽已打下,但这只是完成了知识、信息应用的一部分,形成的电子文本是非结构化数据。

汉王数字首席数据科学家聂昱认为,“静态的文字是没有生命的”,不理解其中的意思,便无法智慧化应用。而要将其进行结构化处理,就要用到NLP(自然语言处理)技术,这是人工智能的重要方向。2016年,汉王科技开始了在NLP方面的布局,不仅成立了武汉汉王数据技术有限公司,还成功收购了北京影研创新科技发展有限公司。

有关分析认为,从OCR到NLP,看似简单的字母区别,却孕育着巨大的产业机遇与挑战。以大数据应用为引领,发展数据采集、存储、处理、挖掘、应用、展示、衍生等产业,通过数字化技术改造传统优势产业,将对传统经济起到放大、叠加和倍增的作用。而这个万亿元级别的市场需要的正是汉王这样有技术,又能将技术转化落地应用的企业。

从技术到场景

业界普遍认为,NLP是人工智能中最难的部分,也是决定未来AI是否智能的关键因素。作为人工智能的一大关键,NLP技术正越来越多进入实际应用场景。尤其在法律、金融、医疗、教育等文本密集的领域,利用NLP技术处理和挖掘文本的需求越来越明显。

在第四届数字中国建设成果展览会的汉王展台上,我们看到,汉王以基础核心技术为底层建设,同步打造出众多符合当前数字经济大势的丰富应用场景,包括智慧政法、智慧医疗、智慧档案、智慧营业厅、智慧园区、智慧城市六大智慧场景,以及数字签批、数字办公两大数字应用,给了数字经济的未来赋予了无限的想象力。

在全国率先实现三级法院一体推动电子卷宗随案同步生成新模式。目前,汉王科技集约化数据生成中心解决方案,已成为我国智慧法院建设工作中的亮点之一。

在智慧医疗方面,通过建立针对医学病案语料的病程、检验单据等的识别引擎、医学NLP引擎,推动从病案数字化、病案数据化到病案数智化,助力医院实现门诊、住院对病案数据的无纸化利用,以及对患者的远程数据服务,目前已在解放军301医院、海南301分院、重庆新桥医院、空军总医院等实现成功落地,未来具备广阔的业务复制前景。

在智慧档案方面,通过应用云计算、物联网、大数据等技术,以构建档案智慧收集、智慧管理、智慧利用、智慧保存的平台,从而实现档案的智能服务、物物相联、长期保存、网格共享。

…………

从上述场景应用可以看出,从2016年开始NLP的技术积累,到各子公司的行业应用,汉王科技如今在NLP领域,形成了从技术研发,到法院、医院、图书馆、档案馆、银行等多行业应用的闭环,各子公司也在技术和场景应用的协同中,形成了良好的联动效应。

对于汉王科技在NLP上的布局,汉王科技高级副总裁李志峰表示,近几年来,汉王科技在NLP方面投入很大,目前NLP方兴未艾,汉王科技的布局也是“小荷才露尖尖角”,而随着NLP技术和市场的打开,还会不断显现。

从数据到智慧

汉王手写识别、OCR识别作为新基建数字建设核心技术,加之其布局的NLP技术,汉王的文本大数据与服务板块业务可以解决国家大数据中心建设、工业互联网建设中的数据智能采集问题,从而推动中国数字化建设的加速前行。

有关分析认为,随着汉王数字、武汉汉王数据、影研科技的发展,汉王科技在文档数据化领域的布局将进一步延伸,通过承担国家级、各行业项目,汉王进行文档“大数据化”研发工作,并同步建立起自己的文档大数据库,而未来要做的,则是在大数据基础上开发各种新的应用,以探索文档数据化更广阔的应用前景。

据了解,按照“从数据到智慧”的发展战略,汉王科技一方面深化核心技术,成立多地研发中心进行NLP技术与手写OCR的研发;另一方面挖掘贴近用户需求和业务场景的应用价值点,推进创新型应用落地。汉王科技的2020年报显示,汉王科技大数据团队已将NLP技术进行有效落地应用,建立起了包括文本分类、聚类、结构化数据抽取、知识抽取、知识图谱、文本摘要、机器问答等在内的跨NLP各个子领域的全技术链体系。

今年以来,新基建如火如荼,5G商用渐行渐近,从信息化到数字化的转型过程中,也给全能型的技术公司谱写了美好的蓝图。可以想象,随着NLP的技术发展,及其场景的不断深入,文本应用上将产生新的变革:未来,法院法律文档大数据平台将可以为法律工作者提供海量的同类案例参考;而在文献资料上,可以通过知识图谱等提供超越档案内容信息的深度知识服务……在文档电子化上,汉王将带领人们先行触摸到人工智能的曙光。

全球知名咨询公司麦肯锡称:“数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。” 图片来源:企业供图