情感|舆情情感是如何被测量的?( 二 )


文章图片

图:词映射到词向量空间过程
Step 03
获取特征
特征是一个对于问题建模有意义的属性 , 可以表达更多的跟问题上下文有关的内容 。
基于情感词典与规则的方法获取特征 , 需要抽取出情感词 , 即从文本中自动识别出情感词来 。 如基于有限状态机(FiniteStateMachine , FSM)的匹配方法 。 情感元素抽取过程分三个步骤 。第一步 , 情感元素匹配 , 主要是将经过预处理的评论语料映射到特征词和否定副词的列表中 , 这些列表根据在元素评论中出现的顺序进行排序 。第二步 , 情感元素抽取 , 将列表数据作为FSM的输入 , 根据上下文和情感词寻找特征意见(Feature-Opinion , F-O)对 , 并确定每对F-O对的情感极性 。第三步 , 情感元素过滤 , 利用规则筛选出正确的F-O对 。
机器学习中提升效率和获得更好结果高度依赖于数据预处理 , 同时整个学习过程70%工作量也在此 , 数据预处理包括清洗、转换、规约三个部分 , 其中的规约是一个降维过程 , 在机器学习中通过特征工程实现 。 特征工程包括特征提取和特征选择两类 , 前者是保留所有特征但区别对待 , 如因子分析;后者是只留下最有效的特征 , 如矩阵的奇异值分解、Filter、Wrapper、Embedded等 。 是一个人工+机器共同实现的方法 。
特征学习是深度学习中的用语 , 与机器学习中用于降维的特征工程不一样 , 是主动寻找隐藏特征 , 深度学习由多层网络构成 , 每一层学习一个特征 。 如CNN中通过卷积运算和池化方法构成的一层人工神经元集合中 , 通过前馈方法就能学习出图像、语言、文本的一个特征 。 基于深度学习方法获得特征都是完全自动实现的 。
多策略混合方法在获得特征的时候 , 利用情感词抽取、特征学习和特征工程三种方法中的一种或多种 。
Step 04
使用模型进行情感分类
基于情感词典与规则的方法 。 该方法主要依赖于情感词典的构建 , 是指利用情感词典获取文档中情感词的情感值 , 再通过加权计算确定文档的整体情感倾向 。 使用此方法时不考虑词语之间的联系 , 词语的情感值不会随着应用领域和上下文的变化而变化 , 因此需要针对特定领域建立相关的情感词典提高分类的准确率 。 情感词典是情感分析系统的基础知识库 , 是数字、文本与符号的集合 。 在缺乏大量训练数据集的情况下 , 基于词典与规则的方法相对能取得较好的分类结果且易于理解 , 但是网络用语不断涌现 , 情感词典需要不断更新扩展以提高分类的准确率 。
基于机器学习的方法 , 是以带有情感标签的数据训练出一个情感分类器 , 再利用分类器预测测试集中文本的情感倾向 , 常用的浅层机器学习分类算法有最大熵、朴素贝叶斯和支持向量机(SVM)等 。

推荐阅读