首页 > IDC资讯 > IDC新闻

使用 RNN 进行情感分析的初学者指南

2018-06-23 来源：

原标题 Advances in Semantic Textual Similarity，作者为 Google AI 的软件工程师与技术主管 Yinfei Yang。

原文链接：https://towardsdatascience.com/a-beginners-guide-on-sentiment-analysis-with-rnn-9e100627c02e

图片来源：Unsplash

情感分析可能是最常见的自然语言处理的应用之一。我无需去额外强调在客服工具中情感分析的重要性。本文将利用循环神经网络，训练出一个基于 IMDB 数据集的电影评论分类器。如果你想了解更多关于深度学习在情感分析中的应用，这里推荐一篇很棒的论文。

数据

我们将采用循环神经网络，具体地说应该是 LSTM，去实现基于 Keras 的情感分析。Keras 已经将 IMBD 电影评论数据内置其中，我们可以很方便地调用。

from keras.datasets import imdb

设置词汇量的总数，并加载训练数据和测试数据。

vocabulary_size = 5000
(X_train, y_train), (X_test, y_test) = imdb.load_data(num_words = vocabulary_size)
print('Loaded dataset with {} training samples, {} test samples'.format(len(X_train), len(X_test)))

加载完的数据拥有 25000 个训练样本和 25000 个测试样本。

查看一条评论样本及其标签。

请注意，评论是以一串整数的形式进行存储的，它们表示预先分配给每个词语的 ID。标签则用一个整数表示，0 代表消极的评价，1 代表积极的评价。

我们可以利用imdb.get_word_index()函数返回的字典，从而将评论映射回原有的文字。

查看最长的评论长度和最短的评论长度。

print('Maximum review length: {}'.format(
len(max((X_train + X_test), key=len))))

最长的评论长度为 2697 个词

print('Minimum review length: {}'.format(
len(min((X_test + X_test), key=len))))

最短的评论长度为 14 个词

填充序列

为了让数据能够输入 RNN 模型，所有的输入文档必须有相同的长度。我们需要设置max_words变量来限制评论的最大长度，超过该长度的评论将被截断，不足该长度的评论将被填充空值(0)。在 Keras 中，我们可以使用pad_sequences()函数来达到此目标。现在设置max_words变量的值为 500。