独家 | 基于新闻标题的股价走势分析（附链接）-技术圈

作者: Ronil Patil

翻译：王闯 (Chuck)

校对：詹好

本文约1900字，建议阅读5分钟

作者基于Kaggle上的新闻头条和股票指数数据集，用Python演示了如何利用NLP技术对新闻标题进行情感分析，从而预测股价走势。

标签：自然语言处理、情感分析、股价预测

本文曾作为数据科学博客松（https://datahack.analyticsvidhya.com/contest/data-science-blogathon-7/）的部分内容发表。

“不要在草堆里找一根藏针，而是要买下整个草堆！”

本次的主题与上述的引文有关，是一项对于股票市场的数据研究工作（译者注：引文是美国指数基金先驱John Bogle的名言，简述了指数型基金的概念，即与其花昂贵的费用请经理人从股市里大海捞针，不如用最简单的方法、最少的手续费，投资整个市场。）

本文介绍了基于自然语言处理（NLP）技术，如何创建一个利用新闻标题来分析股价的模型。具体而言，利用NLP来对新闻标题进行情感分析，从而预测股价涨跌。因此，本文的所有内容都是围绕如何用情感分析来预测股价展开的。

数据集介绍

这里我们使用了Kaggle数据集。你可以从这里（https://github.com/ronil068/Stock-Sentiment-Analysis）直接下载。该数据集是Kaggle上可用的世界新闻和股票价格的组合数据。数据框中包括其中25列分别对应每一天的25条TOP新闻，日期列（Date）和标签列（Label, 因变量特征）。数据范围是2008年至2016年，数据框2000年至2008年是从雅虎财经抓取的。标签基于道琼斯工业平均指数。

标签为1–股价上涨。
标签为0–股价持平或下跌。

开始

首先引入相关库

import pandas as pdfrom sklearn.feature_extraction.text import CountVectorizerfrom sklearn.ensemble import RandomForestClassifierfrom sklearn.metrics import classification_report,confusion_matrix,accuracy_score

读取数据集

df = pd.read_csv('F:Stock-Sentiment-Analysis-master/Stock News Dataset.csv', encoding = "ISO-8859-1")

我们可以观察一下该数据集的一些特征：Label（标签）是我们的因变量特征（目标值），其余26个特征是自变量。当Label特征的值为1时，代表股价上涨，值为0时，代表股价持平或下跌；Top1到Top25，则是当日的25个Top新闻的标题；Date是时间信息。以上我们用来进行分析的数据集了。我们将利用NLP来对文章标题进行情感分析，从而预测股价将上涨还是下跌。

将数据集划分为训练集和测试集

train = df[df['Date'] < '20150101']test = df[df['Date'] > '20141231']

我们将根据日期划分数据集。日期小于20150101的数据集为训练数据集，日期大于20141231的数据集为测试数据集。

特征工程

首先，我们需要从Top1到Top25的这些文本数据集中删除句号、感叹号等符号，只保留文字信息。因为进行情感分析不需要符号之类的信息。这里使用了正则表达式来进行处理。如前文所述，除了小写字母a-z和大写字母A-Z之外，所有内容都被替换为空白。如果有任何特殊字符出现，它将被自动删除并被替换为空格。

 # Removing special charactersdata=train.iloc[:,2:27]data.replace("[^a-zA-Z]"," ",regex=True, inplace=True)# Renaming column names for better understanding and ease of accesslist1= [i for i in range(25)]new_Index=[str(i) for i in list1]data.columns= new_Indexdata.head(5)

更新后的数据集如下所示：

同时，我们还需要统一字符的大小写。这是非常关键的一步，因为每当我们尝试创建词袋模型或TF-IDF模型时，如果一个单词以大写字母开头，同时当它在另一个句子中以小写出现，模型将认为这是两个不同的单词。也就是说本来是同一个单词，但仅仅由于大小写的不同，却被视为不同的单词。这是我们需要避免的。

 # Convertng headlines to lower casefor index in new_Index:    data[index] = data[index].str.lower()data.head(1)

因此，请始终确保已将所有字母都转换为小写。当然也可以将它们转换为大写字母，但是如果决定将所有字母都转换为大写，则应当确保每个字母都应大写。

根据索引来合并所有新闻标题：

现在我们将某一天的25个Top新闻标题合并在一起，成为一个段落。这是为了方面我们后续应用CountVectorizer方法，即词袋模型或TF-IDF模型。因此，我将遍历每个日期，并将每一个日期下的25个标题合并为一个段落。

 headlines = []for row in range(0,len(data.index)):    headlines.append(' '.join(str(x) for x in data.iloc[row,0:25]))

现在，某一天的Top新闻标题就变成了这样：

应用CountVectorizer和RandomForestClassifier方法

此处，文本词频统计向量会将这些句子向量化。这便是词袋的含义。

 ## implement BAG OF WORDScountvector=CountVectorizer(ngram_range=(2,2))traindataset=countvector.fit_transform(headlines)## implement RandomForest Classifier

randomclassifier=RandomForestClassifier(n_estimators=200,criterion='entropy')randomclassifier.fit(traindataset,train['Label'])

在测试集上进行预测

现在我们将对测试集进行与训练集相同的特征转换。

 ## Predict for the Test Datasettest_transform= []for row in range(0,len(test.index)):    test_transform.append(' '.join(str(x) for x in test.iloc[row,2:27]))test_dataset = countvector.transform(test_transform)predictions = randomclassifier.predict(test_dataset)

最后，检查准确性

在这里，我们将利用分类报告，混淆矩阵和准确率分数来检查模型的准确性。

 matrix = confusion_matrix(test['Label'],predictions)print(matrix)score = accuracy_score(test['Label'],predictions)print(score)report = classification_report(test['Label'],predictions)print(report)