情感分析 Sentiment Analysis

winterSky 2024-03-24 AM 982℃ 0条

2024-03-23T16:54:56.png

  1. 文件层级(Document level):在这个层次上,任务通常是评估整个文档的性质,如情感倾向、主题内容或者作者的意图等。比如,可以对一篇文章进行情感分析,以确定其总体是积极的、消极的还是中性的。
  2. 句子层级(Sentence level):这一层次的任务关注单个句子,分析句子中表达的信息或情感。例如,评估一个评论中的每个句子是否表达了正面或负面的情绪。
  3. 方面层级(Aspect level):这种任务则是更加细粒度的分析,专注于文本中的具体方面或属性,如产品的某一特定特性。例如,在产品评论中,可以对“电池寿命”、“屏幕质量”或“客户服务”等特定方面进行评估。

2024-03-23T16:59:44.png

  • 流程图显示,一份文档被输入到一个机器学习模型,该模型用来预测情感。
  • 预测的输出可以是两类:分类(Classification)和回归(Regression)。
  • 分类可以进一步细分为二元分类(Binary,比如正面(P)或负面(N))和多类分类(Multi,比如1至5星级评分)。
  • 回归则是输出一个评分(Score),通常是一个连续的数值,表示情感的强度或者情感倾向的程度。

文档级情感分析部分细化为两种文档表示方法:

  1. Bag-of-words (BoW)

    • 向量大小等于词汇量,表明这是一个稀疏且高维的表示。
    • 缺点包括没有词序(使用Bag-of-n-gram可以一定程度上解决这个问题)和缺乏语义信息。
  2. Document Embedding

    • 使用词嵌入技术来表示文档

BoW是最基础的方法,通常在简单任务中效果不错,但它不考虑词序和语义。词嵌入是一种更先进的表示,能够捕捉更多的上下文和语义信息。这些表示方法对于构建一个准确预测文档情感的模型是很关键的。


2024-03-23T17:06:40.png

  1. Bag-of-words (BoW):一种将文本表示为其词汇的无序集合的方法,不考虑语法或词序。
  2. Sentence Embedding

    • Word Embedding:这种方法通过训练将词汇转换为向量,可以捕捉单词的语义和上下文。
  3. Parse Tree:一种树形结构,表示句子的语法结构,如上图中的例子显示了一个简单句子“John hit the ball”的语法树。其中"S"代表句子,"NP"代表名词短语,"VP"代表动词短语,"Det"代表限定词,"N"代表名词,"V"代表动词。
  4. Opinion Lexicons:这些是用于情感分析的特定词典,包含已知情感极性的单词列表。图片中提供了一个资源链接(不过请注意,由于我不能直接访问互联网,因此无法验证链接的有效性)。
  5. CNN and RNN:卷积神经网络(CNN)和递归神经网络(RNN)是两种机器学习模型,通常用于处理序列数据,如文本。CNN通过滑动窗口捕获局部特征,而RNN通过隐藏状态捕获序列数据的时间依赖性。

2024-03-23T17:10:40.png

方面级情感分析(Aspect-level Sentiment Analysis)的概念框架。

方面级情感分析

  • 输入句子是:“It has a horrible keyboard, but an awesome trackpad.”
  • 首先进行的是方面提取(Aspect Extraction, AE),它的目标是从句子中识别出正在评价的具体方面或特征。在这个例子中,识别出的方面是“keyboard”和“trackpad”。
  • 接下来是方面级情感分析(Aspect-Level Sentiment Analysis, ALSA),这一步分析与每个方面相关的情感倾向。这里,“keyboard”与负面情感关联,“trackpad”与正面情感关联。

三个重要的任务

  1. Context representation:表示上下文,即理解句子的整体语义内容。
  2. Target representation:表示目标,即识别和表示句子中的评价对象(方面)。
  3. Context -> Target:表示上下文到目标的映射,即确定上下文中的情感是如何与特定的方面关联的。
标签: none

非特殊说明,本博所有文章均为博主原创。

评论已关闭