- 文件层级(Document level):在这个层次上,任务通常是评估整个文档的性质,如情感倾向、主题内容或者作者的意图等。比如,可以对一篇文章进行情感分析,以确定其总体是积极的、消极的还是中性的。
- 句子层级(Sentence level):这一层次的任务关注单个句子,分析句子中表达的信息或情感。例如,评估一个评论中的每个句子是否表达了正面或负面的情绪。
- 方面层级(Aspect level):这种任务则是更加细粒度的分析,专注于文本中的具体方面或属性,如产品的某一特定特性。例如,在产品评论中,可以对“电池寿命”、“屏幕质量”或“客户服务”等特定方面进行评估。
- 流程图显示,一份文档被输入到一个机器学习模型,该模型用来预测情感。
- 预测的输出可以是两类:分类(Classification)和回归(Regression)。
- 分类可以进一步细分为二元分类(Binary,比如正面(P)或负面(N))和多类分类(Multi,比如1至5星级评分)。
- 回归则是输出一个评分(Score),通常是一个连续的数值,表示情感的强度或者情感倾向的程度。
文档级情感分析部分细化为两种文档表示方法:
Bag-of-words (BoW):
- 向量大小等于词汇量,表明这是一个稀疏且高维的表示。
- 缺点包括没有词序(使用Bag-of-n-gram可以一定程度上解决这个问题)和缺乏语义信息。
Document Embedding:
- 使用词嵌入技术来表示文档
BoW是最基础的方法,通常在简单任务中效果不错,但它不考虑词序和语义。词嵌入是一种更先进的表示,能够捕捉更多的上下文和语义信息。这些表示方法对于构建一个准确预测文档情感的模型是很关键的。
- Bag-of-words (BoW):一种将文本表示为其词汇的无序集合的方法,不考虑语法或词序。
Sentence Embedding:
- Word Embedding:这种方法通过训练将词汇转换为向量,可以捕捉单词的语义和上下文。
- Parse Tree:一种树形结构,表示句子的语法结构,如上图中的例子显示了一个简单句子“John hit the ball”的语法树。其中"S"代表句子,"NP"代表名词短语,"VP"代表动词短语,"Det"代表限定词,"N"代表名词,"V"代表动词。
- Opinion Lexicons:这些是用于情感分析的特定词典,包含已知情感极性的单词列表。图片中提供了一个资源链接(不过请注意,由于我不能直接访问互联网,因此无法验证链接的有效性)。
- CNN and RNN:卷积神经网络(CNN)和递归神经网络(RNN)是两种机器学习模型,通常用于处理序列数据,如文本。CNN通过滑动窗口捕获局部特征,而RNN通过隐藏状态捕获序列数据的时间依赖性。
方面级情感分析(Aspect-level Sentiment Analysis)的概念框架。
方面级情感分析:
- 输入句子是:“It has a horrible keyboard, but an awesome trackpad.”
- 首先进行的是方面提取(Aspect Extraction, AE),它的目标是从句子中识别出正在评价的具体方面或特征。在这个例子中,识别出的方面是“keyboard”和“trackpad”。
- 接下来是方面级情感分析(Aspect-Level Sentiment Analysis, ALSA),这一步分析与每个方面相关的情感倾向。这里,“keyboard”与负面情感关联,“trackpad”与正面情感关联。
三个重要的任务:
- Context representation:表示上下文,即理解句子的整体语义内容。
- Target representation:表示目标,即识别和表示句子中的评价对象(方面)。
- Context -> Target:表示上下文到目标的映射,即确定上下文中的情感是如何与特定的方面关联的。
评论已关闭