首页 > > 网络编程 > 其它 >

【译】Python 金融：算法交易（1）基础入门

2019-01-05 13:10:57来源：博客园阅读 ()

本文翻译自2018年最热门的Python金融教程 Python For Finance: Algorithmic Trading。

这篇 Python 金融教程向您介绍算法交易等内容。

技术已成为金融领域的一项资产：金融机构已不仅仅是单纯的金融机构了，它正向着技术公司演进。除了技术带来的创新速度和竞争优势以外，金融交易的速度、频率和大数据量，使得金融机构对技术的关注度日益提高，技术确已成为金融业的主要推动力。

在最热门的金融编程语言中，有R语言、Python，还有C++、C#和Java。在本教程中，你将学习如何开始使用Python进行金融分析，其内容如下：

Python金融入门必备基础知识：对于那些刚接触金融的人，首先要了解有关股票和交易策略的知识，什么是时间序列数据，以及如何设置工作空间。

常见的金融分析方法：介绍时间序列数据和常见的金融分析方法，比如使用Python包Pandas进行移动窗口、波动率计算等等。

简单的动量策略开发：首先逐步完成开发过程，然后开始编写简单的算法交易策略。

回溯测试策略：使用Pandas、zipline和Quantopian回溯测试制定的交易策略。

评估交易策略：优化策略使之获得更好的表现，并最终评估策略的性能和稳健性。

从这里下载本教程的 Jupyter notebook 代码。

Python 金融入门

在进入交易策略学习之前，最好先来了解基础知识。本教程的第一部分将着重于介绍入门所需的Python基础知识。但这并不意味着你将完全从零开始：你至少需要完成 DataCamp 的免费课程 Intro to Python for Data Science course，从而学会如何使用Python列表、包和NumPy。此外，尽管不是必需，但仍希望你能了解Pandas的基本知识，这是众所周知的Python数据处理包。

然后我建议你参加DataCamp的课程 Intro to Python for Finance，学习Python金融的基本知识。如果你还想要把新学的Python数据科学技能用于真实的金融数据，可以考虑参加 Importing and Managing Financial Data in Python 课程。

股票和交易

当一家公司想要扩张或承接新项目时，它可以发行股票来募集资金。股票代表在公司所有权中占的份额，并以金钱兑换的形式发放。股票可以买入和卖出：买卖双方交易现存的曾发行的股票。卖出股票的价格独立于公司业绩，股价反应的是供需关系。这意味着，每当一只股票因为成功、受欢迎等原因被认为是‘值得的’，那么它的股价就会上涨。

请注意，股票和债券并不完全相同。债券是公司通过借贷的形式筹集资金，无论是作为银行贷款还是发行债券。

正如你刚才读到的那样，买卖或者交易是我们谈论股票所不可避免的，但当然不仅限于此：交易是一种买卖资产的行为，可以是像股票、债券这样的金融证券，或者是如黄金、石油这样的有形资产。

股票交易是这样一个过程：买入股票就是将现金转换成公司所有权的股份，反之，卖出股票就是将股份换回现金。这一切交易都希望能从中获取利润。现在，为了获得丰厚的利润，在市场上要么做多，要么做空：要么你认为股价会上涨并在将来的高价位上卖出股票，要么卖出你的股票，期望在低价位上买回而盈利。当你按照固定的计划在市场上做多或做空时，你就有了一个交易策略。

开发交易策略需要经历若干阶段，就如同构建机器学习模型那样：首先制定一个策略，并以能在电脑上测试的形式实现它，然后进行初步测试或回溯测试，优化你的策略，最后评估策略的性能和稳健性。

交易策略通常通过回溯测试来验证：根据策略制定的规则，使用历史数据，重构过去可能发生的交易。通过这种方式，你能够了解策略的有效性，并在将其应用于真实市场前，把它作为策略优化的起点。当然，这通通依赖于以下信念：任何在过去表现良好的策略，也会在将来取得好的成绩，同样，任何在过去表现差劲的策略，在将来也不可能有好的表现。

时间序列数据

时间序列是在连续的、等间距的时间点上取得的一系列数据点。在投资中，时间序列跟踪选定数据点（如股票价格）的变动，它是在特定的时间跨度内，等间隔地记录数据点。如果你还是疑惑它到底长什么样子，来看看下面的例子：

x轴代表日期，y轴代表价格。在上图中，“连续的、等间距的时间点” 就是x轴上以14天为间隔的时间刻度：注意 3/7/2005 和它的下一个点 3/31/2005 之间的差值，以及 4/5/2005 和 4/19/2005 等等。

然而，你常见的股票数据不仅仅只有时间和价格这两列，大部分时候有5列，包括时间、开盘价、最高价、最低价和收盘价。这意味着，如果时间间隔设置为天，你将会得到某只股票那一天的开盘价、收盘价，以及最高、最低价。

现在，你具备了学习完本教程的基本概念。接下来这些概念马上又会出现，并在后续的学习中变得更深入。

设置工作空间

准备工作空间是一项简单的工作：基本上只需确保你的系统运行了Python和集成开发环境（IDE）。然而仍有些办法可以让你更容易地开始。

以Anaconda为例，它是Python和R的高性能发行版本，包含了超过100个最受欢迎的Python、R和Scala数据科学包。此外，安装Anaconda将使你能通过conda轻松地安装超过720个包，这里conda是集成在Anaconda中的著名管理器，用于管理包、依赖项和环境。除此之外，Anaconda还包含了Jupyter Notebook和Spyder集成开发环境。

听起来不错，对吧？

你可以从这里下载安装Anaconda，同时不要忘了通过这篇教程Jupyter Notebook Tutorial: The Definitive Guide查看如何设置Jupyter Notebook。

当然，Anaconda并不是你唯一的选择：你可以尝试收费的 Canopy Python 发行版本，或者是 Quant Platform。

Quant Platform 相比于 Jupyter 或 Spyder IDE 更有优势，因为它向你提供了在浏览器中进行金融分析所需的一切。通过 Quant Platform，你可以访问基于图形用户界面的金融工程，进行基于Python的交互式金融分析，以及使用你自己的Python分析库。更重要的是，你还可以通过论坛与小伙伴们讨论问题和解决方案。

Python金融基础：Pandas

当你使用Python进行金融分析，会经常使用到数据处理包 Pandas。但当你深入时，也会涉及诸如 NumPy、SciPy、Matplotlib 这些包。

现在，让我们只关注 Pandas 并使用它分析时间序列数据。本节将介绍如何使用 Pandas 导入、探索以及处理数据。最重要的是，你将了解如何对导入的数据进行常见的金融分析。

将金融数据导入Python

pandas-datareader包允许从谷歌、雅虎财经、世界银行等数据源中读取数据。如果你想知道此函数提供的最新的数据源列表，可参阅此文档。在本教程中，你将使用pandas-datareader包读取雅虎财经的数据。首先请确保安装了此包的最新版本，可通过 pip with pip install pandas-datareader 命令实现。

提示：如果你想安装最新的开发版本，或者遇到任何问题，都可以在这里查看安装说明。

import pandas_datareader as pdr
import datetime 
aapl = pdr.get_data_yahoo('AAPL', 
                          start=datetime.datetime(2006, 10, 1), 
                          end=datetime.datetime(2012, 1, 1))

请注意雅虎API端口最近已更改，如果你已经开始使用该库，则需要安装一个临时的修复补丁，直到该补丁被合并到主干中才能使用pandas-datareader包从雅虎财经获取数据。在你开始之前，请确保查阅了此问题。

无需担心，在本教程中数据已提前为你加载好，所以你在使用Pandas学习Python金融时不会遇到任何问题。

即便pandas-datareader提供了向Python导入数据的许多选择，它也不是唯一能获取金融数据的包：比如Quandl 库，就可以获取谷歌金融数据：

import quandl 
aapl = quandl.get("WIKI/AAPL", start_date="2006-10-01", end_date="2012-01-01")

更多关于如何使用 Quandl 获取金融数据的信息，可参考此网页。

最后，如果你已经在金融领域工作了一段时间，你可能知道最常用的数据处理工具是Excel。在这种情况下，你需要了解如何将Excel集成到Python中。

查看 DataCamp 的教程 Python Excel Tutorial: The Definitive Guide ，获取更多相关知识。

使用时间序列数据

当你最终将数据导入工作空间后，首先要做的事情就是将手弄脏（指清洗、整理数据——译者注）。然而，现在要处理的是时间序列数据，这看起来可能不那么简单，因为索引是日期时间数据。

即便如此也不用担心。让我们一步步来，首先使用函数来探索数据。如果你先前已经有R或者Pandas的编程经验，那么对于这些函数就不陌生了。

没关系，你将发现这很容易！

如上述代码块所示，使用pandas_datareader将数据导入工作空间。所得到的对象 aapl 是数据框，一个二维数据结构，其每一列可以是不同类型的数据。现在当你手头有了一个常规的数据框时，首先要做的事情之一是运行 head() 和 tail() 函数来查看开始和结束的几行数据。幸运的是，当你使用时间序列数据时，这一点并不会改变。

提示：请务必使用 describe() 函数来查看数据的统计摘要信息。

# 查看`aapl`数据的前几行
print(aapl.head())

                 High        Low       Open      Close     Volume  Adj Close
Date                                                                        
2006-10-02  10.838572  10.614285  10.728572  10.694285  178159800   7.161565
2006-10-03  10.707143  10.455714  10.635715  10.582857  197677200   7.086947
2006-10-04  10.780000  10.451428  10.585714  10.768572  207270700   7.211311
2006-10-05  10.880000  10.590000  10.647142  10.690000  170970800   7.158698
2006-10-06  10.720000  10.544286  10.631429  10.602858  116739700   7.100338

# 查看`aapl`数据的最后几行
print(aapl.tail())

                 High        Low       Open      Close    Volume  Adj Close
Date                                                                       
2011-12-23  57.655716  57.070000  57.098572  57.618572  67349800  38.585011
2011-12-27  58.441429  57.574287  57.585712  58.075714  66269000  38.891148
2011-12-28  58.321430  57.334286  58.127144  57.520000  57165500  38.519012
2011-12-29  57.950001  57.215714  57.628571  57.874287  53994500  38.756252
2011-12-30  58.040001  57.641430  57.644287  57.857143  44915500  38.744774

# 查看`aapl` 数据的统计信息
print(aapl.describe())

              High          Low         Open        Close        Volume  \
count  1323.000000  1323.000000  1323.000000  1323.000000  1.323000e+03   
mean     29.237566    28.507684    28.901012    28.889151  1.882896e+08   
std      14.199012    14.029758    14.123131    14.119734  1.027007e+08   
min      10.568571    10.371428    10.488571    10.461429  3.937360e+07   
25%      17.752857    17.182143    17.457857    17.431429  1.122037e+08   
50%      25.642857    24.725714    25.260000    25.120001  1.629866e+08   
75%      39.132858    38.351429    38.777143    38.699999  2.316230e+08   
max      60.957142    59.427143    60.251427    60.320000  8.432424e+08   

         Adj Close  
count  1323.000000  
mean     19.345990  
std       9.455460  
min       7.005628  
25%      11.673178  
50%      16.821934  
75%      25.915947  
max      40.394054

正如介绍中所述，这一数据包含四列，分别是苹果股票每天的开盘价、收盘价，以及最高、最低价。此外还有另外两列，成交量和调整的收盘价。

成交量（Volume）这一列记录每天交易的股票数量。调整的收盘价（Adj Close）是将当天的收盘价进行调整，以包含第二天开盘前的任何举措。可以使用此列检查或深入分析历史回报情况。

注意索引或行标签如何包含日期，以及列或列标签如何包含数值。

提示：可以使用Pandas中的 to_csv() 函数将该数据保存为csv文档，并且通过 read_csv() 函数将数据重新读回到Python中。当因雅虎API端口被更改而无法获取数据时，这一方法是非常方便的。

import pandas as pd
aapl.to_csv('data/aapl_ohlc.csv')  # 注意事先要在当前工作目录下创建data文件夹
df = pd.read_csv('data/aapl_ohlc.csv', header=0, index_col='Date', parse_dates=True)

现在你已经简单地查看了数据的前几行以及一些统计信息，是时候更深入一些了。

一种方法是检查索引和列，并选择某列的最后10行数据。后者被称为构造子集，因为你选择了数据中的一小部分。构造子集得到一个序列（Series），它是一个可以存储任何数据类型的一维数组。

请记住数据框结构是一个二维数组，它的每一列可以存储不同的数据类型。

让我们在接下来的练习中检查上面所说的一切。首先，使用 index 和 columns 属性来查看数据的索引和列。接着选取数据集中 Close 列的最后10个观测量。使用方括号 [] 挑出最后10个数值。你也许从其他编程语言（比如R语言）中获知了这一构造子集的方法。最后，将后者指定给变量 ts，并使用 type() 函数查看 ts 的类型。

# 查看索引 
aapl.index

DatetimeIndex(['2006-10-02', '2006-10-03', '2006-10-04', '2006-10-05',
               '2006-10-06', '2006-10-09', '2006-10-10', '2006-10-11',
               '2006-10-12', '2006-10-13',
               ...
               '2011-12-16', '2011-12-19', '2011-12-20', '2011-12-21',
               '2011-12-22', '2011-12-23', '2011-12-27', '2011-12-28',
               '2011-12-29', '2011-12-30'],
              dtype='datetime64[ns]', name='Date', length=1323, freq=None)

# 查看列
aapl.columns

Index(['High', 'Low', 'Open', 'Close', 'Volume', 'Adj Close'], dtype='object')

# 选择Close列的最后10个数值
ts = aapl['Close'][-10:]
print(ts)

Date
2011-12-16    54.431427
2011-12-19    54.601429
2011-12-20    56.564285
2011-12-21    56.635715
2011-12-22    56.935715
2011-12-23    57.618572
2011-12-27    58.075714
2011-12-28    57.520000
2011-12-29    57.874287
2011-12-30    57.857143
Name: Close, dtype: float64

# 查看ts的类型
type(ts)

pandas.core.series.Series

方括号可以很好的对数据取子集，但它可能不是Pandas中最惯用的方法。这就是你还需学习 loc() 和 iloc() 函数的原因：前者用于基于标签的索引，后者用于位置索引。

实际上，这意味着你可以将行标签，如 2007 和 2006-11-01 传递给 loc() 函数，而将整数 22 和 43 传递给 iloc() 函数。

完成下面的练习来了解 loc() 和 iloc() 的工作方式。

# 查看2006年11、12月数据的前几行
print(aapl.loc[pd.Timestamp('2006-11-01'):pd.Timestamp('2006-12-31')].head())

                 High        Low       Open      Close     Volume  Adj Close
Date                                                                        
2006-11-01  11.625714  11.194285  11.585714  11.308572  152798100   7.572930
2006-11-02  11.331429  11.214286  11.274285  11.282857  116370800   7.555712
2006-11-03  11.361428  11.112857  11.337143  11.184286  107972200   7.489699
2006-11-06  11.437143  11.204286  11.278571  11.387143  108644200   7.625546
2006-11-07  11.571428  11.447143  11.492857  11.501429  131483100   7.702079

# 查看2007年数据的前几行
print(aapl.loc['2007'].head())

                 High        Low       Open      Close     Volume  Adj Close
Date                                                                        
2007-01-03  12.368571  11.700000  12.327143  11.971429  309579900   8.016820
2007-01-04  12.278571  11.974286  12.007143  12.237143  211815100   8.194759
2007-01-05  12.314285  12.057143  12.252857  12.150000  208685400   8.136404
2007-01-08  12.361428  12.182858  12.280000  12.210000  199276700   8.176582
2007-01-09  13.282857  12.164286  12.350000  13.224286  837324600   8.855811

# 查看2006年11月数据的前几行
print(aapl.iloc[22:43].head())

                 High        Low       Open      Close     Volume  Adj Close
Date                                                                        
2006-11-01  11.625714  11.194285  11.585714  11.308572  152798100   7.572930
2006-11-02  11.331429  11.214286  11.274285  11.282857  116370800   7.555712
2006-11-03  11.361428  11.112857  11.337143  11.184286  107972200   7.489699
2006-11-06  11.437143  11.204286  11.278571  11.387143  108644200   7.625546
2006-11-07  11.571428  11.447143  11.492857  11.501429  131483100   7.702079

# 查看2006-11-01 和 2006-12-01 两天的开盘价和收盘价
print(aapl.iloc[[22,43], [2, 3]])

                 Open      Close
Date                            
2006-11-01  11.585714  11.308572
2006-12-01  13.114285  13.045714

提示：如果仔细查看子集数据，你会发现某些天的数据是缺失的；如果你更仔细地观察其模式，你会发现经常是缺失两或三天；这些天是周末或者假日，所以并不包含在你的数据中。没什么可担心的：这很正常，也无需填补缺失的日期。

除了索引，你可能还想研究其他技术来更好的了解数据。你永远不知道还会发生什么。让我们尝试从数据集中采集20行数据样本，然后按月而不是天对数据 aapl 进行重新采样。可以使用 sample() 和 resample() 函数来实现：

# 采样20行数据
sample = aapl.sample(20)

# 输出`sample`
print(sample)

                 High        Low       Open      Close     Volume  Adj Close
Date                                                                        
2011-08-15  54.995716  54.012856  54.232857  54.772858  115136000  36.679344
2007-03-19  13.078571  12.798572  12.891429  13.018572  178240300   8.718055
2007-11-28  25.799999  25.049999  25.260000  25.745714  287728000  17.240946
2010-09-17  39.708572  39.097141  39.669998  39.338570  158619300  26.343573
2010-03-11  32.214287  31.902857  31.987143  32.214287  101425100  21.572710
2007-01-18  13.158571  12.721429  13.157143  12.724286  591151400   8.520981
2007-06-05  17.527143  17.214285  17.344286  17.524286  230196400  11.735363
2011-03-04  51.470001  51.107143  51.438572  51.428570  113316700  34.439796
2009-12-15  28.215714  27.610001  27.975714  27.738571  104864900  18.575493
2006-12-15  12.745714  12.475715  12.717143  12.531428  184984800   8.391831
2007-08-27  19.237143  18.871429  19.055714  18.892857  176859900  12.651844
2009-01-16  12.054286  11.485714  12.042857  11.761429  261906400   7.876194
2007-03-01  12.615714  11.964286  12.004286  12.437143  353882200   8.328694
2010-05-05  36.877144  35.532856  36.147144  36.570000  220775800  24.489573
2010-09-08  37.770000  37.014286  37.111427  37.560001  131637800  25.152536
2009-07-16  21.145714  20.795713  20.822857  21.074286   98392700  14.112666
2007-06-06  17.721428  17.421429  17.471428  17.662857  278060300  11.828161
2009-05-05  18.980000  18.731428  18.821428  18.958570   99563800  12.695851
2011-09-28  57.677143  56.644287  57.169998  56.715714  107409400  37.980404
2007-04-19  13.035714  12.832857  12.884286  12.895715  106478400   8.635779

# 按月重新采样
monthly_aapl = aapl.resample('M').mean()

# 输出 `monthly_aapl` 的前几行
print(monthly_aapl.head())

                 High        Low       Open      Close        Volume  \
Date                                                                   
2006-10-31  11.123766  10.893117  11.002922  11.017987  1.634995e+08   
2006-11-30  12.314626  12.028980  12.161565  12.192109  1.647010e+08   
2006-12-31  12.546500  12.205571  12.415857  12.353071  2.111349e+08   
2007-01-31  12.880857  12.522572  12.722357  12.697357  3.401223e+08   
2007-02-28  12.382932  12.111804  12.252105  12.246842  1.805573e+08

            Adj Close  
Date                   
2006-10-31   7.378336  
2006-11-30   8.164602  
2006-12-31   8.272392  
2007-01-31   8.502948  
2007-02-28   8.201255

非常直截了当，不是吗？

resample() 函数使用频繁，因为它为时间序列的频率转换提供了精细而灵活的控制：除了指定新的时间间隔，处理缺失数据以外，还能选择对数据重新采样的方式，如上述代码所示。asfreq() 方法与之类似，不过只能实现前两项功能。

提示：在 IPython 控制台中尝试代码 aapl.asfreq("M", method="bfill")，并查看其输出结果。

最后，在进行数据可视化和常见的金融分析这些进阶的数据探索之前，你可能已经开始计算每天开盘价和收盘价之间的差值了。在Pandas的帮助下，可以轻易地实现这一算数运算；只需将 aapl 数据的 Open 列数值减去该数据的 Close 列数值即可。换言之，就是从 aapl.Open 中减去 aapl.Close。将结果存入 aapl 数据框中新的一列 diff 中，另外可以使用 del 将其删除：

# 在`aapl` 中新增一列`diff`
aapl['diff'] = aapl.Open - aapl.Close

# 删除`diff` 列
#del aapl['diff']

提示：请确保注释掉最后一行代码，这样 aapl 数据框的新列不会被删除，并且你可以检查算术运算的结果！

当然，了解绝对收益可帮助你知道自己是否做了一个好的投资。但是作为一名定量分析者，你可能对使用相对方法衡量股票价值更感兴趣，比如某只股票上涨或下跌的幅度。计算每日的百分比变化便是这样一种方法。

现在知道这一点很好，不过也不用担心，接下来你将会越来越深入地进行了解。

本节介绍了在开始预分析之前，进行数据探索的一些方法。但是仍有可提高的余地，如果你想了解更多，可阅读 Python Exploratory Data Analysis 这篇教程。

可视化时间序列数据

在使用 head(), tail()，索引等方法探索数据之后，你大概想要可视化时间序列数据。多亏了Pandas的绘图功能整合了 Matplotlib 包，使这项任务变得容易了；只要使用 plot() 函数并传递给它相关的参数即可。另外，也可以使用 grid 参数来为图片添加网格背景。

让我们检查并运行以下代码，看看如何绘制这样一幅图！

# 导入Matplotlib包的`pyplot` 模块，简写为 `plt`
import matplotlib.pyplot as plt

# 绘制收盘价曲线
aapl['Close'].plot(grid=True)

# 显示绘图
plt.show()

如果你想进一步了解 Matplotlib 包，并学习如何开始使用它，那么可以查看 DataCamp的课程 Intermediate Python for Data Science。

标签：

版权申明：本站文章部分自网络，如有侵权，请联系：west999com@outlook.com
特别注意：本站所有转载文章言论不代表本站观点，本站所提供的摄影照片，插画，设计作品，如需使用，请与原作者联系，版权归原作者所有

上一篇：Python的基本数据类型

下一篇：Python学习笔记(2)

python3基础之“术语表（2）” 2019-08-13
python3 之字符串编码小结（Unicode、utf-8、gbk、gb2312等 2019-08-13
Python3安装impala 2019-08-13
小白如何入门 Python 爬虫？ 2019-08-13
python_字符串方法 2019-08-13

IDC资讯：主机资讯注册资讯托管资讯 vps资讯网站建设

网站运营：建站经验策划盈利搜索优化网站推广免费资源

网站联盟：联盟新闻联盟介绍联盟点评网赚技巧

行业资讯：搜索引擎网络游戏电子商务广告传媒

网络编程： Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它

服务器技术： Web服务器 Ftp服务器 Mail服务器 Dns服务器安全防护

软件技巧：其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷

网页制作： FrontPages Dreamweaver Javascript css photoshop fireworks Flash

程序设计： Java技术 C/C++ VB delphi

网络知识：网络协议网络安全网络管理组网方案 Cisco技术

操作系统： Win2000 WinXP Win2003 Mac OS Linux FreeBSD

热门词条

最新资讯

热门关注

热门标签

【译】Python 金融：算法交易 （1）基础入门