机器之心:用于文本特征提取的神经网络技术的综述论文
栏目:金源最新资讯 发布时间:2024-04-21
本论文关注当前最优秀的文本特征提取神经网络技术,它们已经在语言处理、语言生成、文本分类和其它计算语言学任务中被证明是有用的工具。

参加者:吴攀、李亚洲、蒋思源

文本特征提取是自然语言处理的核心问题之一。 近日,加拿大滑铁卢大学的 John 在 arXiv 上发表了一篇关于神经网络技术用于文本特征提取的综述论文。 机器之心整理并介绍了这篇论文。 点击文末“阅读原文”即可查看论文原文。

本文的目的是为使用神经网络架构的文本特征提取技术的讨论做出贡献。 本文讨论的研究问题集中于当前最先进的神经网络技术,这些技术已被证明是语言处理、语言生成、文本分类和其他计算语言学任务中的有用工具。

1 动机

目前用于基于文本的特征提取的大多数方法都依赖于相对简单的统计技术。 例如,单词共现模型(如 n-gram)或词袋模型(如 TF-IDF)。

该研究项目的动机是识别和研究使用神经网络的技术,并将它们与传统的文本特征提取模型一起研究,以证明其方法的差异。

文本特征提取可用于各种不同的应用,包括但不限于:无监督语义相似性检测、文章分类和情感分析。

该项目的目标是记录使用神经网络从文本数据提取特征领域的差异、优点和缺点。 还描述了这些技术随时间的演变。

该报告可以被工程师用作快速查找表,寻找构建文本分类或回归过程的方法,并且如第 15 节中所讨论的,可以用于将用例映射到特定的特征提取实现。

2 研究问题

3种方法

第 2 节中列出的研究问题将通过调查有关该主题的一些重要概述论文来解决(Morin 和 Morin,2016)(等人,2003)。 我们还将研究该领域的一些开创性研究论文,包括词嵌入(et al., 2013a)(et al., 2013b)(et al., 2013c)。

除此之外,还将研究一些不太明显的特征提取方法,包括词性标注、分块、命名实体识别和语义角色标注等任务(et al., 2011)(Luong et al., 2013) )(Maas 等人,2015)(Li 等人,2015)(等人,2011)(等人,2014)。

4 背景

本节提供了计算语言学领域这项任务的高级背景。

4.1 词性标注(Part-of-)

词性标注的目标是用代表其句法角色的单独标签来标记每个单词,例如名词、动词、形容词等。

最好的 POS 注释器基于在文本窗口上训练的分类器,然后在推理阶段输入双向解码算法。

总体而言,该模型类似于双向依赖网络 (bi-),可以使用多种方法进行训练,包括支持向量机和双向解码器。

4.2 块()

分块的目标是通过名词或动词短语等句法成分来标记句子片段。 它也称为浅层句法分析(浅层句法分析),可以看作是短语级别(而不是单词级别)词性标注的概括。

分块的实现通常需要底层 POS 实现,然后通过 () 将单词组合或分块。

4.3 命名实体识别(Named)

NER 将句子的基本元素标记为类别,例如 或 。

用于训练 NER 分类器的特征包括 POS 标记、CHUNK 标记、前缀和后缀以及标记实体的大型字典。

4.4 语义角色标注(Role)

SRL 的目标是将语义角色分配给句子的句法成分。

当前最先进的 SRL 系统由多个阶段组成:生成解析树,识别哪个解析树节点代表给定动词的参数网络推广公司,最后对这些节点进行分类以计算相应的 SRL 标签。

SRL系统通常给出多个详细的特征,如词性和词的句法标签以及树中的节点、动词在解析树中的句法路径、解析树中的节点是否是部分等。名词或动词短语等。

5 文档矢量化

文档向量化可用于将文本内容转换为数值向量表示,该向量表示可用作特征,然后可用于训练机器学习模型。 本节探讨了用于计算此类特征向量的几种统计方法(John and ,2017)。

5.1 n-gram模型

n-gram 是给定文本或语音序列中 n 个项目的连续序列。 给定一个完整的文档语料库,每个元组n克、字符和单词都表示为位向量(bit)中的特定位; 当与文本正文(body of text)聚合时,它将形成文本的稀疏向量表示,使用 n-gram 共现形式。

5.2 TF-IDF模型

即词频-逆文档频率(term-),它是一种数值统计方法,旨在反映词对对集合或语料库中文档的重要性(Jones,1972)。 TF-IDF的值会随着单词在文档中出现的次数线性增加,但也会被该单词在语料库中出现的频率所抵消,这有助于调整那些一般来说经常出现的单词。 这是一个词袋模型,不保留词的顺序。

5.3 段落向量模型(Model)

段落向量模型由无监督学习算法组成,该算法可以学习可变长度文本(例如句子或文档)的固定大小向量表示(Le 和 2014)。 可以学习这种向量表示来预测从段落中采样的上下文中的周围单词。 两种不同的实现在社区中取得了突出的地位:

6 自然语言处理的神经网络模型简介(A of Net for NLP (, 2016))

7 神经概率语言模型(A Model)

目标:如果您了解句子的基本结构,则可以通过用可互换短语替换部分原始句子来创建新句子(et al., 2003)。

挑战:主要瓶颈是计算输出层的激活函数,因为输出层是由激活函数组成的全连接层。

描述:

8级概率神经网络语言模型(Model)

目标:实施条件概率的分层分解可在训练和识别过程中实现约 200 的加速。 层次分解是从语义层次中提取并受先验知识约束的二元层次聚类(Morin and ,2005)。

描述:

9 段落和文档的分层神经自动编码器(A 代表 和 )

目标:尝试基于基本词嵌入和句子嵌入构建段落嵌入,然后尝试基于对该段落嵌入进行编码来重建原始段落(Li et al., 2015)。

描述:

连续空间词表示中的10个语言规律(在空间词中)

目标:在本文中,作者研究了通过输入层权重显式学习的向量空间单词表示。 这些表示非常擅长捕获语言中的句法和语义规则,并且每个关系都可以使用特定于关系的向量偏移量 ( ) 来表征。 这允许基于单词之间的偏移量进行面向向量的推理(et al., 2013c)。 这是导致创建最先进的词嵌入工具的创新论文之一(et al., 2013a)。

描述:

隐藏层和输出层的值计算如下:

图1:RNN语言模型

实值特征表示的最大特点之一是能够计算类比问题 a : b; 的答案。 c : d,其中 d 未知。 使用连续空间词表示,这可以变得像计算 y = xb − xa + xc 一样简单,其中 y 是模型可以计算的 d 的最佳估计。 如果正在训练的单词之间没有向量,则 y == xw,则可以使用余弦相似度来估计最近邻的向量表示:

11 使用循环神经网络进行形态学更好的单词表示(Word with for)

目的:本文旨在解决复杂词和稀有词向量表示不准确的问题,该问题被认为是由于形态相关词之间缺乏关系而引起的(Luong et al., 2013)。

描述:

图2:

12 向量空间中单词表示的高效估计(of Word in Space)

目标:本文的主要目标是介绍可用于从数十亿单词(并使用数百万单词)的巨型数据集中学习高质量单词向量的技术(et al., 2013a)。

挑战:该神经网络的全连接输出层中出现的复杂性占用了大部分计算量。 改善这种情况的几种方法是使用输出激活单元的分层版本,或者避免在最后一层执行归一化。

描述:

图 3:CBOW 和 Skip-gram 模型

实验结果表明,CBOW和Skip-gram模型总是优于当时最好的模型。 它还观察到网络推广,达到一定水平后,继续增加数据的维度和规模将开始产生适得其反的效果。

13. 单词、短语及其组合(Words and and their)的分布式表示

目标:本文基于skip-gram模型的思想,提出了关于词嵌入质量和训练过程加速的优化。 它还提出了层次结构最后一层的替代方案,称为负采样 ( )(et al., 2013b)。

描述:

它建议的一种优化方法是对训练集中的单词进行下采样,以提高模型训练的速度。

给定训练单词序列 [w1, w2, w3, ..., wT],skip-gram 模型的目标是最大化其平均对数概率,如公式 3 所示:

其中 c 是窗口,即当前正在训练的单词周围的上下文。

14 GloVe:单词表示的全局向量(GloVe:for Word)

目标:本文提出了一种全局对数双线性回归模型(log-model),它结合了文献中两个主要模型系列的优点:全局矩阵分解和局部上下文窗口方法(et al., 2014)。

描述:

这使得特征矩阵可以与其转置互换。

15 讨论

在进行文献调查后,本节再次回到最初的研究问题,并根据这些原始论文的实验结果和结论得出一些简明的结论。

问题1:从文本中提取特征的相对简单的统计技术有哪些?

n-gram 等词频计数模型和 TF-IDF 等简单词袋模型仍然是获取文本数值向量表示的最简单工具。

问题 2:使用神经网络代替这些简单方法有什么固有的好处吗?

使用神经网络的主要好处是它们能够识别不明确的模式以及它们在许多应用领域(例如主题分类和句法解析树生成)中的灵活性。

问题 3:使用神经网络与使用简单方法相比有何优缺点?

主要的权衡是计算成本和内存使用,虽然模型复杂性也是一个因素,但基于此,可以训练神经网络来学习任意复杂的生成模型。

问题 4:这些不同技术在性能和准确性方面有何差异?

由于每个应用程序都有其自身的优点,因此这个问题的答案会有些主观。 一般来说,可以使用TF-IDF等简单的统计方法来解决文档相似度问题。 CNN 本质上是通过迭代降维对输入数据进行建模,使其非常适合主题分类和文档摘要等任务。 RNN 非常擅长对文本序列进行建模,这使得它们非常适合对语言语法进行建模。 在各种框架中,GloVe 的预训练词嵌入表现出色,被认为是目前最好的。

问题 5:在哪些用例中这些权衡超过了神经网络的好处?

正如上一个问题所解释的,对于一些简单的信息检索用例(例如文档排名),TF-IDF 和单词 PMI(点互信息)就足够了。 在此类应用中不需要使用神经网络。

16 总结

本文总结了近年来出现的最先进的神经网络技术的重要方面。 在开发从简单的聊天机器人到通用人工智能实体概念化的应用程序时,机器翻译、自然语言理解和自然语言生成领域是重要的研究领域。

第15节的讨论部分总结了调查论文的结果,为进入该领域的新人提供直接可用的参考。

对于未来的工作,我们打算通过实验比较不同的词嵌入方法,作为迭代构建高质量用于未来机器学习模型的指南。

致谢和参考文献(省略)

原文链接:

文章原创于金源网络科技有限公司:http://haimianbeibei.com/