量化投资学习记录-1

"alpha and beta"

Posted by xxc on February 2, 2022

Basic Knowledge:

大部分资料来源于宽客学院,本文在此基础上进行一些扩充与整理。

1. $\alpha$ and $\beta$:

  • 资本资产定价模型(Capital Asset Pricing Model, CAPM):

    $E(r_{i})=R_f+\beta_i(E(R_M)-R_f)$,

    • 其中$R_f$代表无风险回报率(Risk Free Rate),是纯粹的货币时间价值,$\beta_a$是beta系数,$E(R_M)$为市场期望回报率(Expected Market Return), $E(R_M)-R_f$是股票市场溢价(Equity Market Premium)
    • CAPM公式中的$R_f$是无风险收益率,比较典型的无风险回报率是10年期的美国政府债券。如果股票投资者需要承受额外的风险,那么他将需要在无风险回报率的基础上多获得相应的溢价。那么,股票市场溢价就等于市场预期回报率减去无风险回报率。证券风险溢价就是股票市场溢价和一个$\beta$系数的乘积。
  • 多因子CAPM:

    • 多因子模型进一步补充,个股的收益由K个共同风险因子的风险补偿决定,而且和其对各个因子的暴露程度成线性关系:

      \[E(R_i)=R_f+\sum_{factor_{j=1}}{\beta_i*E(R_{factor_j})}\]
  • $\alpha$系数:

    • 投资组合中源于这些风险因子带来的收益称为$\beta$收益,不可被这些风险因子解释的收益称为$\alpha$收益。信仰主动投资的人即使承认上述的理论,也认为现实世界市场不是一直以均衡或无套利状态下运行,故而他们相信,股票的收益率存在着:

      \[R_i=\alpha_i+R_f+\sum_{factor_{j=1}}{\beta_i*R_{facotr_j}}\]
    • 对于某些股票是严格为正的,有些是严格为负的。人们致力于找到那些具有正的$\alpha$的股票。$\alpha$收益即为独立于其它具体风险的收益。某基金收益比之业绩基准收益存在显著的$\alpha$的话即为下面关系中$\alpha_{fund}$显著不为0:

      \[R_{fund}-R_f=\alpha_{fund}+\beta_i*(R_{benchmark}-R_f)\]

      故$\alpha$收益率即为上述回归残差收益率$\alpha_{fund}$(Residual Return)。

  • 寻找$\alpha$的意义:

    $\alpha$收益是独立于其它具体风险的收益,寻找$\alpha$收益可以在你不增加额外风险情况下获得额外收益。组合通过超配具有正$\alpha$的股票,低配负$\alpha$的股票,同时保持各风险因子的暴露程度与指数基准一致(各$\beta$不变)可以做到“战胜”指数基准。同时,当存在稳定且可观的$\alpha$时,可以通过对冲策略来对冲掉具体风险(比如做多股票通过做空股指期货对冲市场风险),而获得低风险、小回撤但稳健的回报。

  • $\beta$ 系数:

    • 用以度量一项资产系统风险的指针,是用来衡量一种证券或投资组合相对总体市场的波动性(volatility)的一种风险评估工具。也就是说,如果一个股票的价格和市场的价格波动性是一致的,那么这个股票的Beta值就是1。如果一个股票的Beta是1.5,就意味着当市场上升10%时,该股票价格则上升15%;而市场下降10%时,股票的价格亦会下降15%。
    • $\beta$ 系数的计算:通过统计分析同一时期市场每天的收益情况以及单个股票每天的价格收益来计算得出的。$\beta$ 较高则风险较高,对应预期回报率较高。

2. 主动投资策略寻找$\alpha$

  • 信息比例(IR,Information Ratio):$\alpha$ 收益与该$\alpha$ 波动程度的比值。它本质是一个风险调整后收益的衡量。IR越大,说明该策略越有吸引力.。$IR=\frac{\alpha_A}{\sigma(\alpha_A)}$
  • 信息系数(IC,Information Coefficient):代表因子预测股票收益的能力。IC的计算方法是:计算全部股票在调仓周期期初排名和调仓周期期末收益排名的线性相关度(Correlation)。IC越大的因子,选股能力就越强。
  • 主动管理基本定律:$IR=IC*\sqrt{N}$,$N$ 代表独立的投资决策次数。大体意思是:如果你的策略基于某个因子值进行预测,则因子预测有效性高(即IC越大越好),同时预测的标的资产越多、预测的独立性越大越好(即N越大越好),IR就越高。故性价比高的策略需要兼顾因子的预测能力及预测范围,如果某个有效的因子只能局限于预测少数的资产标的,则该策略IR不会高,同时明显限制了该策略可容纳的资产规模。故性价比高的策略需要兼顾因子的预测能力及预测范围,如果某个有效的因子只能局限于预测少数的资产标的,则该策略IR不会高,同时明显限制了该策略可容纳的资产规模。实务中确实存在这种情况,追求可靠性高的买卖信号时,它发出买卖信息的频率或标的总是比较地低和少,而频率高的策略,胜率却总是比较低。

  • $\alpha$的来源:对于单因子预测模型,$\alpha$来源为

    \[\alpha_i=\sigma(r_i)*IC*Z_{score}(i)\]

    其中$Z_{score}(i)$为股票$i$在该因子值的标准化得分。该公式表达的思想为:

    \[\alpha(残差收益率) = 波动率 * IC * 预测得分 =机会 * 预测能力* 预测得分置信程度\]

    比如,盈利超预期因子,该因子通常与随后的股票超额收益(α ,实际收益率-预期收益率)存在强相关关系,假设IC值为0.8,代表该因子的预测能力相当高,股票A和B在该因子的标准化得分分别为1.2,1.8,相同波动情况下,则B的α 会更高,因为1.8意味着股票B比A更超预期,故其超原先预期收益的程度会更大。

    • 该公式虽过于严苛的假设,实际应用受很大局限,但它提供了如下非常有意义的洞见:

      1)波动率,即机会。没有波动的资产,或者波动低的资产,难以从中得到大的α

      2)IC,即预测能力,投资不过是一种预测,挖掘更多信息,寻找具有预测能力的因子,是获得更多α 的前提,这是决定主动投资战胜指数基准的根本因素。

      3)预测得分,将IC的预测能力转为对各标的资产的打分,进而做到了正、负α 的区分。

      IC,是所有主动投资策略的核心能力,尤其以量化投资的角度看,无非是运用更多更全的数据、更优化更先进的数学模型,挖掘出更有预测能力的高IC因子,当你具备高IC的因子时,上述公式告诉你,你可以获得高的α 。内幕消息就是那一类具有非常高IC,而普通人又无法拿到的因子。

3. 现实世界:

  • 现实总是很残酷,由因子构成的模型在现实世界中并不理想,这是因为任何因子的预测能力都是有限的,动态变化的,即IC并不是常数,并且没有规律可循。对历史数据进行回测,可以计算各因子在过去的预测能力,并因此筛选一部分预测能力强的来作为当前交易的参考,但因子择时还是非常困难,决定当下那些有效因子在起作用,以及其有效性将维持多久都是非常困难的事情。因子择时仍一定程度上依赖投资者的判断。国内券商的因子研究报告应用因子半衰期的概念,按某因子预测收益率排序筛选出来的前N个股票若超过一半的股票不在真实收益率排序top N时,说明该因子在当前开始失效,需要谨慎使用。

  • IC的波动性与方差对于判断因子的有效性非常重要,以至于通过一些其他的简化条件,有:

    \[IR=\frac{\overline{IC}}{\sigma(IC)}\]

    即IR为IC的均值比其标准差,IC波动性被认为是投资策略的模型风险,如果投资策略IC方差大,意味着该策略在历史回测上表现良好,在未来可能遭遇滑铁卢。

    寻找高IC的因子和机器学习中寻找有解释力的特征变量一样,属于特征工程的苦力活,可以用暴力的方法,搭一套大集群测试成千上万的的因子及其组合,力求找到最佳因子组合,也可以结合人的先验知识来自我定制。