基于神经网络的中文文本情感检测(一) 检测目的及项目设计规划
- 时间:2020-04-30
- 672人已阅读
研究目的与意义
从互联网发明到现在随着网络发展飞速网络内容愈发多样,但是随之而来的社会性问题也越来越多,例如网络上充斥着谩骂侮辱嘲讽欺凌的言论,并且有小部分人以此为乐丝毫不顾及他人感受。当前这种问题随着网络的高速发展以及移动互联网的普及使得更多的人暴露在网络的恶意言论的攻击之下。普通人也极其容易受到恶意言论攻击,网络恶意言论以其极低的成本代价以及高昂的追踪成本使得恶意言论者往往可以逍遥法外,另外由于网络的普及速度远远大于网络相关法律制定以及普及的程度这又会让纷杂的网络恶意言论违法犯罪难以有具体量化界定。另外由于法律跟不上网络发展的速度使得很多人根本意识不到网络空间中恶意言论,网络中的人性在极低的道德成本以及极低的承担法律成本下被极大的放大。电商中有为了谋取更多利益的恶意差评其它同行的聘用水军,以及恶意的刷好评,微博头条评论中有恶意诋毁贬低的言论。另外在网络传播快速的特点下有恶意诋毁谩骂伟人名人以及政府的言论,这使得伟人名人的名誉受损,政府在恶意评论快速传播中公信力下降由此也会造成社会恐慌。
网络恶意言论检测识别是利用计算机技术防止网络恶意言论广泛传播的有力武器,利用计算机检测网络恶意言论可以保护普通网名在网络中拥有良好的网络环境,保证良好的用户上网体验。同时利用计算机技术的恶意言论检测系统监督可以让政府对网络中恶意传播不利于国家发展的攻击性言论进行有力的控制。
项目主要内容
深度神经网络识别网络恶意言论解决恶意言论的影响问题,解决或降低言论的恶意影响
1网络中评论数据的提取
1),网络开源微博评论数据集,或者其他电商的评论数据集(数据主要来源)
2),爬虫获取评论数据集(验证数据)
2评论标记
3评论文本预处理
4基于深度神经网络的恶意评论模型设计与训练
5模型修正与优化
项目重点
恶意评论文本的选取
情感词汇文本的处理
深度神经网络的模型设计
模型的设计与优化
数据集的获取以及情感词库获取
情感词汇文本预处理
深度学习的模型设计
模型的训练与修正优化
模型的实际应用
项目难点
单词的边界界定
词义的消歧
句法的模糊性
有瑕疵的或不规范的输入的鉴别
语言行为与计划的判断
研究方法与路线
查阅相关论文学习情感文本的处理,查阅资料神经网络的搭建与训练,然后根据已有论文的研究路线结合二者,后期优化与修正不足。
1数据获取:网络爬虫获取微博评论数据,寻找开源评论情感标记数据集
2预处理数据(数据清洗)
3 模型的建立与训练
4修正与优化
项目设计与实现内容
1文本预处理(文本格式化,分词(加载语料库),去停等词)
使用各个实验室或者大学的语料库与停等词库,使用jieba分词,使用Counter计数
2神经网络的设计与建立(概念与实现)
我们搭建原生的神经网络也就是不用现在主流的TensorFlow或者Pytouch等开源强大的神经网络库,直接使用numpy搭建神经网络
3神经网络的训练与优化
这里就是对自己的神经网络的分析优化升级,以及如何更分割数据集合理的训练提高准确率
4神经网络的部署前准备
增加部署必备的部分用于保存神经网络所训练的模型,以及服务器部署前准备,flask的本地搭建
5神经网络的部署与部署优化
部署以后的访问效率问题解决我将用python的socket编程来提高效率
6神经网络网络实际的验证
1,爬取微博评论
使用scrapy框架爬取微博的评论
2,评论处理后,标记
去除文本中html标签然后做一个标记系统
3,输入神经网络监测其真实正确率
将标记的数据输入神经网络测试真正的性能
7额外的项目增加可视化,神经网络的训练管理平台
后台使用flask搭建通过socket编程来实现后台的神经网络训练重启的管理以及其它功能
相关文章:
1 . 基于神经网络的中文文本情感检测(五) 简单MLP网络的优化与模型保存
2 . 基于神经网络的中文文本情感检测(四) 开始构建简单的神经网络
3 . 基于神经网络的中文文本情感检测(三) 神经网络基础与发展历史
4 . 基于神经网络的中文文本情感检测(二) 数据源获取及数据简单处理
5 . 基于神经网络的中文文本情感检测(一) 检测目的及项目设计规划
6 . 各个实验室公开人脸数据集收集