天虎科技  >  正文

服务百家企业,接连获得投资 达观数据如何切入文本智能领域?

2018-09-10   
在语言学习中,人类一般都遵循着“听说读写”的规律来进行,每个人小时候都是这样来学习语文:认字、组词、造句、写作文,其中“写”是最难的。然而在我们日常工作中,处理文本数据却又是十分频繁的。
 
目前来看,人工智能技术已经在图像识别、语音处理这两块领域中有了较为巨大的突破。在图像识别领域中已经有了诸如海康、大华、Face++等巨头;在语音处理领域中科大讯飞基本上已经一家独大,但是唯独在文本智能领域中,似乎并没有一家冒尖的企业。
 
但是在9月6日“AI智能+传统产业创新论坛”中,虎哥发现一家在一年多时间内连续获得融资,被真格基金连续跟投的文本智能处理领域企业——达观数据。虎哥与达观数据联合创始人高翔,聊了聊目前文本智能处理领域中的进展与问题。
 

 
机器文本学习的困难
 
机器进行文本处理的流程与人类相似,首先要标注词,基于词的输出形成段落,最后基于段落的输出形成篇章。
 
文本数据难以智能化,因为其在词的层级上就比较抽象。“词的意义很多,比如同义词、反义词、近义词,上升到句子中,有些带有歧义的句子甚至人类理解起来都比较困难,更不用说机器了。”
 
高翔举例说:“‘你上班了吗?’、‘班 你上了吗’、‘上班了吗 你’、‘你 班上了吗’这四句话在我们听来意义都一样,但是机器听起来却是4种不同的含义。”
 
达观数据的产品逻辑
 
那么达观数据是如何让机器像人类一样读懂文本呢?虎哥了解到,达观数据通过层级化的手段构建出一套产品的逻辑。
 
最底层是“达观文本智能处理平台”提供最基础的模块,这一层负责数据的一些调用;在这个基础上,达观数据构建出三个引擎,分别是“文本挖掘引擎”“智能推荐引擎”“垂直搜索引擎”;在三个引擎的基础上进行产品级别的开发。
 
“只有引擎依旧不能算成是可以使用的产品,就好比一辆车只有引擎也是没办法开的。它需要车架、轮子等等部件才能跑得起来。”高翔说。
 
 

由于目前在法律、政务、保险、金融、科技等行业中,文本已经形成规范化语言而且数量庞大,因此智能化应用场景较大。
 
譬如在金融保险领域,很多企业需要上千人团队负责集团的合同审阅,保证合同中的各种信息准确性。达观数据和国内某知名保险公司在文本智能处理方面展开的合作,能够实现自动从非结构化的文本中抽取结构化信息,提升了其集团合同审阅的准确性和效率。
 
“比如一份几十页的合同,机器可以迅速而准确提取出其‘甲方’、‘乙方’、‘金额’等数据。这套系统布局2个月内,其准确率已经达到95.1%。”
 
不止如此,文档智能审阅系统还可以做智能审核,比如审核财务合同金额是否一致,大小写是否一致,银行卡号对不对等等信息。
 
此外,基于用户的留存数据以及行为数据,达观数据也在为某些银行做手机银行APP提供个性化推荐和垂直搜索服务。目前,达观数据已积累了华为、招商银行、浦发银行、海尔、长虹等数百家企业客户的服务经验。
 
达观数据的优势
 
由于底层模块与引擎相同,只是不同场景需要使用不同的数据去训练,因此达观这套系统可实现快速的部署。同时,系统经过训练与标注后会越来越智能。
 
 
 
另外值得一提的是,虎哥了解到诸如百度开发者平台上,也有针对智能文本的一些开放API,只需要开发者随时调用便可实现一些应用。达观数据又与这些开放式平台有什么区别呢?
 
高翔认为:“开放平台公布出的API层级比较低,比如分词这些,如果需要做成产品应用仍需要企业具有开发能力,这对于一般传统企业来讲还是比较难;另外,开放平台没有办法针对特定领域做一些定制化的东西,效果不一定比我们好。”
 
对应到不同的应用场景,达观数据都会提出针对性产品。即便是针对不同行业的定制化开发,因为其底层的引擎以及处理模块都类似,只需要用不同的数据去训练和调试。
 
这也为达观数据迅速部署提供了先天条件。
 
而未来,达观数据也还将专注于智能文本领域的处理,提升企业对各类文字内容处理的准确率和效率,加速企业智能化转型流程。
联系我们
  • 公司信息:四川华西都市网络科技有限公司
  • 地址:四川省成都市红星路二段70号四川日报报业集团
  • 电话:028-86969141
  • 邮编:610012
  • 投稿邮箱:2224894013@qq.com
关注天虎科技微信公众号

关注天虎科技微信公众号

华西都市网首页