基于神经网络的中文文本情感检测(一) 检测目的及项目设计规划

基于神经网络的中文文本情感检测(一) 检测目的及项目设计规划

  • 作者:Geticsen
  • 时间:2020-04-30
  • 79人已阅读
简介 基于神经网络的文本情感检测,这是我的毕业设计主要是学习神经网络以及其在实际的nlp的处理中的应用

研究目的与意义

从互联网发明到现在随着网络发展飞速网络内容愈发多样,但是随之而来的社会性问题也越来越多,例如网络上充斥着谩骂侮辱嘲讽欺凌的言论,并且有小部分人以此为乐丝毫不顾及他人感受。当前这种问题随着网络的高速发展以及移动互联网的普及使得更多的人暴露在网络的恶意言论的攻击之下。普通人也极其容易受到恶意言论攻击,网络恶意言论以其极低的成本代价以及高昂的追踪成本使得恶意言论者往往可以逍遥法外,另外由于网络的普及速度远远大于网络相关法律制定以及普及的程度这又会让纷杂的网络恶意言论违法犯罪难以有具体量化界定。另外由于法律跟不上网络发展的速度使得很多人根本意识不到网络空间中恶意言论,网络中的人性在极低的道德成本以及极低的承担法律成本下被极大的放大。电商中有为了谋取更多利益的恶意差评其它同行的聘用水军,以及恶意的刷好评,微博头条评论中有恶意诋毁贬低的言论。另外在网络传播快速的特点下有恶意诋毁谩骂伟人名人以及政府的言论,这使得伟人名人的名誉受损,政府在恶意评论快速传播中公信力下降由此也会造成社会恐慌。

  网络恶意言论检测识别是利用计算机技术防止网络恶意言论广泛传播的有力武器,利用计算机检测网络恶意言论可以保护普通网名在网络中拥有良好的网络环境,保证良好的用户上网体验。同时利用计算机技术的恶意言论检测系统监督可以让政府对网络中恶意传播不利于国家发展的攻击性言论进行有力的控制。

项目主要内容

深度神经网络识别网络恶意言论解决恶意言论的影响问题,解决或降低言论的恶意影响

1网络中评论数据的提取

1),网络开源微博评论数据集,或者其他电商的评论数据集(数据主要来源)

2),爬虫获取评论数据集(验证数据)

2评论标记

3评论文本预处理

4基于深度神经网络的恶意评论模型设计与训练

  5模型修正与优化

项目重点

恶意评论文本的选取

情感词汇文本的处理

深度神经网络的模型设计

模型的设计与优化

数据集的获取以及情感词库获取

情感词汇文本预处理

深度学习的模型设计

模型的训练与修正优化

模型的实际应用

项目难点

单词的边界界定

词义的消歧

句法的模糊性

有瑕疵的或不规范的输入的鉴别

语言行为与计划的判断

研究方法与路线

查阅相关论文学习情感文本的处理,查阅资料神经网络的搭建与训练,然后根据已有论文的研究路线结合二者,后期优化与修正不足。

1数据获取:网络爬虫获取微博评论数据,寻找开源评论情感标记数据集

2预处理数据(数据清洗)

3 模型的建立与训练

  4修正与优化

项目设计与实现内容

    1文本预处理(文本格式化,分词(加载语料库),去停等词)

        使用各个实验室或者大学的语料库与停等词库,使用jieba分词,使用Counter计数

    2神经网络的设计与建立(概念与实现)

        我们搭建原生的神经网络也就是不用现在主流的TensorFlow或者Pytouch等开源强大的神经网络库,直接使用numpy搭建神经网络

    3神经网络的训练与优化

        这里就是对自己的神经网络的分析优化升级,以及如何更分割数据集合理的训练提高准确率

    4神经网络的部署前准备

        增加部署必备的部分用于保存神经网络所训练的模型,以及服务器部署前准备,flask的本地搭建

    5神经网络的部署与部署优化

        部署以后的访问效率问题解决我将用python的socket编程来提高效率

    6神经网络网络实际的验证

        1,爬取微博评论

            使用scrapy框架爬取微博的评论

        2,评论处理后,标记

            去除文本中html标签然后做一个标记系统

        3,输入神经网络监测其真实正确率

            将标记的数据输入神经网络测试真正的性能

    7额外的项目增加可视化,神经网络的训练管理平台

        后台使用flask搭建通过socket编程来实现后台的神经网络训练重启的管理以及其它功能

文章评论

Top