微信垃圾信息识别处理系统

中国科技博览 / 2018年10月07日 21:39

品牌

胡适 王文彬

[摘 要]本着抵制垃圾信息的目的,设计开发了基于机器学习的垃圾信息识别处理系统。采用新闻流排序法,可以方便地过滤垃圾信息,将用户最想看的内容排到最前面,提高用户的阅读体验。本系统安装在多台测试机器上面,被测试用户做的任何事情,都会经过系统分析处理,因此能很大程度上实现客户需求。

[关键词]垃圾信息;信息识别;新闻流排序法;阅读体验;

中图分类号:S534 文献标识码:A 文章编号:1009-914X(2018)04-0052-01

一、引言

随着各种社交网站的繁荣,无论什么平台都有很多的垃圾私信、垃圾信息,就像人人、微博上有各种广告、垃圾链接。有些用户的账号被盗用了,会使用个人页面发送垃圾短信、广告、病毒,还有一些不受欢迎的朋友请求。

的朋友圈是所有内容全部显示,它不需要排序,是因为朋友圈容量不是特别多,大家可以看完所有的内容。朋友越来越多,没有时间把分享看完,排序是必然的事情。如此,便很容易漏掉很重要人的图片,它们迅速埋没在大部分你不感兴趣的内容了。再比如说新浪微博也没有做排序,有些细节杂乱无章。

根据研究调查,新闻流排序法是一个良好的解决方案。新闻流排序(news feed ranking),指的是用户每天会收到两三千条新鲜事,却只会阅读前50至100条。利用机器学习将用户最想看的内容排到最前面,从而增加用户粘性,提高阅读体验。

本文章中系统不只是排序,还会隐藏用户不感兴趣的内容,主要来抵制垃圾信息。这个系统安装在多台测试机器上面,被测试用户做的任何事情,都会经过系统分析处理,比如评论、链接、朋友请求,都会被这个系统进行判断,是正常行为、滥用行为还是有问题的行为。

在本文章基础上做的任何事情,都会经过这个系统来分析、预测、决定是否允许你发出信息,借此希望会减少生态圈中的骚扰行为。

二、基本内容与主要方案

本课题研究将从系统设计和模块定制入手,采用基于机器学习的函数系统。

选取方便快捷,集成度、开放性好的C编程语言,设计系统使用开发便捷的、控制数据库进行数据收集及比对等系统功能。采用新闻流排序方法改变目前垃圾信息泛滥的现象。新闻流排序(news feed ranking),指的是用户每天会收到两三千条新鲜新闻,却只阅读到前50至100条。利用机器学习将用户最想看的内容排到最前面,从而增加用户粘性,提高阅读体验。

机器学习是本项目系统的核心。利用A/B测试作为迭代方法,借助Growth Hacking的核心——数据来驱动开发,来完成对信息垃圾的处理。

系统中有人为规则和机器算法,比如请求通过和拒绝就是一个迅捷数据组(Scrum)。任务通过,则说明这个任务是一个对机器学习来说的正样本,被拒绝则是一个负样本

此外通过一些异常行为的分析、数据挖掘的方法来分析用户的异常行为。若同一用户发出同样类型评论非常多,所有评论里都有一个相似链接,与正常操作相异,即可判定为异常行为。本系统判定此类操作不被允许。

再者通过“排序”的方式来实现部分操作,“排序”指信息流的顺序。它决定了你打开社交软件信息流的顺序、位置。系统根据用户的兴趣,从产生的两三千个内容、新闻中精选50-100个符合用户需求的展现出来。

做好新闻流排序是很难的问题,因为用户在新闻流上的行为有很多种,不只是传统广告点击或者不点击这一种操作,用户可以在新闻流里赞、评论、分享或者隐藏这个新闻流,也可以播放视频。需要理解用户喜欢什么东西,评论、分享什么东西,想看什么样的视频。理解用户的兴趣所在,根据我们的讯息把最好的东西放在新闻流的最前面。

三、系统功能

本系统可在社交媒体的碎片化的情况下,采取更好的排序手段,推送给用户更精准的内容,提高平台停留时间,加强粘性。

在朋友圈信息的筛选方面,首先A/B测试是解决垃圾信息的迭代的高效方法,通过A/B测试,可测试各种算法的优劣,进行算法优胜劣汰。再者,通过“排序”测试和“内容置頂”测试进行对朋友圈的改进。新闻流的优秀性能在本系统中不可忽视,其从两三千条新闻内容里面,精选出四五十个,按照每个内容打分,分高的内容排在最前面,为用户提供舒适的智能阅读体验。此外,本系统对图片进行模式识别处理后标注上对应标签,再做相应的工作时,即可简化步骤,对图片进行内容识别。

四、本论文的意义

在科技繁荣的当今时代,越来越多的社交平台出现在人们的生活中,但在这些网站及软件给大家带来便利与欢愉的同时,越来越多的垃圾信息也相伴而随的出现。

垃圾信息识别处理系统的创建有效地保证了人们浏览信息的质量,在看到自己需要的信息的同时,又不会被其他的垃圾信息所骚扰,有效地增加了用户粘性,提高了阅读体验。

参考文献

[1] 《计算机网络》 Andrew S. Tanenbaum 潘爱民 译—2004.

[2] 《机器学习》 Tom Mitchell 曾华军、张银奎 译—2008.

[3] 《算法设计与分析基础》 Levitin A. 潘彦 译—2004.

[4] 《公众平台搭建、开发与实践指南》 戴晟晖—2014.

[5] 《公众平台开发实战与应用案例》 陈小龙 —2015.

基金项目

必须刊登:国家级大学生创新创业训练计划项目:201610453077,国家级大学生创新创业训练计划项目:201710453169。endprint

1.精品生活网遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.精品生活网的原创文章,请转载时务必注明文章作者和"来源:精品生活网",不尊重原创的行为精品生活网或将追究责任;3.作者投稿可能会经精品生活网编辑修改或补充。