使用 RNN 进行情感分析的初学者指南
2018-06-23 来源:
原标题 Advances in Semantic Textual Similarity,作者为 Google AI 的软件工程师与技术主管 Yinfei Yang。
原文链接:https://towardsdatascience.com/a-beginners-guide-on-sentiment-analysis-with-rnn-9e100627c02e
图片来源:Unsplash
情感分析可能是最常见的 自然语言处理 的应用之一。我无需去额外强调在客服工具中情感分析的重要性。本文将利用循环神经网络,训练出一个基于 IMDB 数据集的电影评论分类器。如果你想了解更多关于深度学习在情感分析中的应用,这里推荐一篇很棒的论文。
数据
我们将采用循环神经网络,具体地说应该是 LSTM,去实现基于 Keras 的情感分析。Keras 已经将 IMBD 电影评论数据内置其中,我们可以很方便地调用。
from keras.datasets import imdb
设置词汇量的总数,并加载训练数据和测试数据。
vocabulary_size = 5000
(X_train, y_train), (X_test, y_test) = imdb.load_data(num_words = vocabulary_size)
print('Loaded dataset with {} training samples, {} test samples'.format(len(X_train), len(X_test)))
加载完的数据拥有 25000 个训练样本和 25000 个测试样本。
查看一条评论样本及其标签。
请注意,评论是以一串整数的形式进行存储的,它们表示预先分配给每个词语的 ID。标签则用一个整数表示,0 代表消极的评价,1 代表积极的评价。
我们可以利用imdb.get_word_index()函数返回的字典,从而将评论映射回原有的文字。
查看最长的评论长度和最短的评论长度。
print('Maximum review length: {}'.format(
len(max((X_train + X_test), key=len))))
最长的评论长度为 2697 个词
print('Minimum review length: {}'.format(
len(min((X_test + X_test), key=len))))
最短的评论长度为 14 个词
填充序列
为了让数据能够输入 RNN 模型,所有的输入文档必须有相同的长度。我们需要设置max_words变量来限制评论的最大长度,超过该长度的评论将被截断,不足该长度的评论将被填充空值(0)。在 Keras 中,我们可以使用pad_sequences()函数来达到此目标。现在设置max_words变量的值为 500。
设计情感分析的 RNN 模型
我们开始在下面的代码单元中创建模型架构。我们已经从 Keras 中导入了一些你可能会用到的网络层,当然你也可以使用任何你喜欢的网络层或者转换器。
记住,我们的输入是一串词语,从学术上讲,是整数形式的词语 ID,其最大长度等于max_words变量值。而我们的输出是二进制形式的情感标签(0 或 1)。
总结一下,我们创建了一个简单的 RNN 模型,其拥有一个嵌入层,一个 LSTM 层和一个全连接层。这其中一共有 233301 个待训练的参数。
训练及评估模型
我们需要先对模型进行编译,包括指定损失函数,训练中想采用的优化器和用于测量的评价指标。设置好合适的参数,其中包含至少一个度量指标:准确率。
model.compile(loss='binary_crossentropy',
optimizer='adam',
metrics=['accuracy'])
编译完成后,就可以开启训练过程了。我们需要指定两个很重要的训练参数:每一批量中的样本数和训练迭代次数,它们和我们的模型架构一起决定了总体的训练时间。
训练可能需要一段时间,所以可以去喝杯咖啡,或者更好地去跑会步吧。
训练完成后,接下来就可以看下模型在未处理过的测试数据上的表现了。
我们设置了metrics=['accuracy'],scores[1]就代表此次评估的准确率。
scores = model.evaluate(X_test, y_test, verbose=0)
print('Test accuracy:', scores[1])
测试准确率为 0.86964
总结
创建模型的方法有很多种。我们可以尝试不同的架构,网络层及参数,从而不断提高模型的准确率。在这一过程中,我们可以思考,在避免消耗长时间训练的前提下,我们还能做怎样的提升?我们应该如何避免过拟合?
本文的代码可以从 Github 上下载。非常期待能听到大家的反馈和问题。
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点!
本站所提供的图片等素材,版权归原作者所有,如需使用,请与原作者联系。