新一代舆情系统必须是AI化的

舆情监测 · 2019-06-28 15:59:07

     舆情监测是个古老的业务,也是个新的行业,得看从什么角度说这个问题。从发展的眼光看,我们认为二代舆情系统必须是AI化的,目前在分类方面已经有所突破。在舆情系统开天辟地之初,舆情监测的采集和分类无疑要用到爬虫和分词这些基础大数据处理技术,随着这几年搜索引擎的发展,采集已经很成熟。当然也有些永远也采集不到的,因为不开放,不开放其实也不要紧,不开放意味着传播的范围小,私密性高,不会形成舆情,所以采不采集到都问题不大。之所以说舆情监测是个大数据问题,是因为数据的确特别大,而且是持续的。这就使得舆情监测必然会向其它的大数据业务一样发展。
     那么其它的大数据业务会怎么发展呢?比较公认的是大数据行业会成为AI的温床,在数据的滋养下,AI会快速成长,甚至价值要远超过大数据本身。这一点是毋庸置疑的,大数据的处理技术和能力已经导致AI化。这不由得使我联想,舆情系统是不是也会AI化,答案是肯定的,目前舆乐通就在研发第二代舆情系统,其中的分类技术就采用了有别与传统舆情系统的技术,比如CNN深度学习。传统的舆情是分词+索引+搜索,这个已经能满足预警的需要,因为它只会多不会少。但是如果进一步精确处理,比如我们要建设一个“家电投诉”的分类,用传统的技术就是设置很多关键词,把相关的内容聚在这个类别下面,然后必须用人工一个一个分拣才能确定是不是这个分类的。如果用到舆乐通舆情监测系统,则不需要人工分拣到“家电投诉”,系统会通过CNN深度学习技术,学习以前的分类,然后自动把需要分类的分到“家电投诉”这个类别。
     这是不是很有趣?我们的确觉得很有趣,从实践看,用深度学习分类的确比关键词分类+人工分拣要好,我们的TOP1准确率能够到85%以上,TOP3基本上就95%以上了,还是有一定差距的原因是因为互联网的数据噪声很大,比如“我吃顶了喔”为标题,结果内容是“我投诉某偶家电影响我的胃口”这么晕菜的标题,连人工也无法准确标注。