在寻找或挖掘因子的方式上主要有两种思路:一种是先有投资逻辑,再寻找相应的指标来刻画这个投资逻辑,并检验这个指标的有效性,同时不断对指标的计算公式进行调整以改进指标的预测能力;另一种是直接挖掘指标与股票收益率之间的规律,而不关心这个指标所代表的经济含义,只要这个指标具备预测能力即可。第二种方式的指标计算公式往往比较复杂,也难以有一个直观的理解。
在多因子模型中,第一种是主流的方法。多因子模型中的大部分因子都是建立在投资逻辑的基础上的,具有明确的经济含义,比如价值因子和成长因子。采用这种套路寻找因子,就需要不断地积累投资逻辑,投资逻辑简单来说就是「如果……,就……」的关系,比如如果股票具有某种特征,收益率就会比较高或比较低。投资逻辑可以通过阅读投资大师的著作、研究学术报告、与同行交流、观察市场运行规律等方式来获得。提炼出投资逻辑后,还要将这些投资逻辑指标化,这也是量化投资最主要的工作。将投资逻辑用量化的方式进行定义,转化为具体的公式和数字,也就得到了因子或指标,接下来就是检验这些因子的预测能力。在大多数情况下,通过简单方法得到的因子的预测能力并不高,有可能是指标的计算公式或数据不能完全反映投资逻辑,这时候就需要对计算指标的公式和所采用的数据进行修正和调整,让指标能更加准确地反映投资逻辑,提升预测能力。当然也有可能是这个投资逻辑本身就是不成立的,或者预测能力本身就不高,这时就需要对投资逻辑进行甄别。
在第二种思路中,比较常用的是采用机器学习或数据挖掘的方法挖掘因子。首先,输入各种类型的数据:可以是基本面的数据,比如营业收入等;也可以是行情数据,比如收盘价、成交额等;还可以是新闻舆情等。然后,由机器进行训练,寻找这些数据与股票收益率之间的相关模式,用来预测股票的未来收益。这种方式不关心背后逻辑,也不探究因果关系,只追求在样本内构建函数提升拟合度,这样可能会有一些未知的问题。因此,机器学习作为一个工具,需要谨慎使用。
 
(本章节完结)