天虎科技 > 正文

服务百家企业，接连获得投资达观数据如何切入文本智能领域？

2018-09-10

在语言学习中，人类一般都遵循着“听说读写”的规律来进行，每个人小时候都是这样来学习语文：认字、组词、造句、写作文，其中“写”是最难的。然而在我们日常工作中，处理文本数据却又是十分频繁的。

目前来看，人工智能技术已经在图像识别、语音处理这两块领域中有了较为巨大的突破。在图像识别领域中已经有了诸如海康、大华、Face++等巨头；在语音处理领域中科大讯飞基本上已经一家独大，但是唯独在文本智能领域中，似乎并没有一家冒尖的企业。

但是在9月6日“AI智能+传统产业创新论坛”中，虎哥发现一家在一年多时间内连续获得融资，被真格基金连续跟投的文本智能处理领域企业——达观数据。虎哥与达观数据联合创始人高翔，聊了聊目前文本智能处理领域中的进展与问题。

机器文本学习的困难

机器进行文本处理的流程与人类相似，首先要标注词，基于词的输出形成段落，最后基于段落的输出形成篇章。

文本数据难以智能化，因为其在词的层级上就比较抽象。“词的意义很多，比如同义词、反义词、近义词，上升到句子中，有些带有歧义的句子甚至人类理解起来都比较困难，更不用说机器了。”

高翔举例说：“‘你上班了吗？’、‘班你上了吗’、‘上班了吗你’、‘你班上了吗’这四句话在我们听来意义都一样，但是机器听起来却是4种不同的含义。”

达观数据的产品逻辑

那么达观数据是如何让机器像人类一样读懂文本呢？虎哥了解到，达观数据通过层级化的手段构建出一套产品的逻辑。

最底层是“达观文本智能处理平台”提供最基础的模块，这一层负责数据的一些调用；在这个基础上，达观数据构建出三个引擎，分别是“文本挖掘引擎”“智能推荐引擎”“垂直搜索引擎”；在三个引擎的基础上进行产品级别的开发。

“只有引擎依旧不能算成是可以使用的产品，就好比一辆车只有引擎也是没办法开的。它需要车架、轮子等等部件才能跑得起来。”高翔说。

由于目前在法律、政务、保险、金融、科技等行业中，文本已经形成规范化语言而且数量庞大，因此智能化应用场景较大。

譬如在金融保险领域，很多企业需要上千人团队负责集团的合同审阅，保证合同中的各种信息准确性。达观数据和国内某知名保险公司在文本智能处理方面展开的合作，能够实现自动从非结构化的文本中抽取结构化信息，提升了其集团合同审阅的准确性和效率。

“比如一份几十页的合同，机器可以迅速而准确提取出其‘甲方’、‘乙方’、‘金额’等数据。这套系统布局2个月内，其准确率已经达到95.1%。”

不止如此，文档智能审阅系统还可以做智能审核，比如审核财务合同金额是否一致，大小写是否一致，银行卡号对不对等等信息。

此外，基于用户的留存数据以及行为数据，达观数据也在为某些银行做手机银行APP提供个性化推荐和垂直搜索服务。目前，达观数据已积累了华为、招商银行、浦发银行、海尔、长虹等数百家企业客户的服务经验。

达观数据的优势

由于底层模块与引擎相同，只是不同场景需要使用不同的数据去训练，因此达观这套系统可实现快速的部署。同时，系统经过训练与标注后会越来越智能。

另外值得一提的是，虎哥了解到诸如百度开发者平台上，也有针对智能文本的一些开放API，只需要开发者随时调用便可实现一些应用。达观数据又与这些开放式平台有什么区别呢？

高翔认为：“开放平台公布出的API层级比较低，比如分词这些，如果需要做成产品应用仍需要企业具有开发能力，这对于一般传统企业来讲还是比较难；另外，开放平台没有办法针对特定领域做一些定制化的东西，效果不一定比我们好。”

对应到不同的应用场景，达观数据都会提出针对性产品。即便是针对不同行业的定制化开发，因为其底层的引擎以及处理模块都类似，只需要用不同的数据去训练和调试。

这也为达观数据迅速部署提供了先天条件。

而未来，达观数据也还将专注于智能文本领域的处理，提升企业对各类文字内容处理的准确率和效率，加速企业智能化转型流程。

服务百家企业，接连获得投资 达观数据如何切入文本智能领域？