有句名言「Garbage in, Garbage out」(进来是垃圾,出去也是垃圾),意味着如果你使用的输入数据质量不好,也就不要期望有好的结果输出,这里主要是要强调数据对量化投资的重要性。
从很多角度都可以看出,如何强调数据的重要性都不为过。如果没有做好数据的搜集和预处理工作,将会带来严重的后果。错误的数据会导致大量研究时间的浪费,在极端情形下甚至会得出毫无意义的结论。如果数据本身存在严重问题,无论检验方法多么复杂、模型多么完美,都不可能判断出待检验的量化投资策略是好还是坏。因此,一个顶级的量化团队会投入大量资源和精力搜集数据、清洗数据以及优化数据存储方式。
量化投资策略研究用到的数据大体上可以分成两大类:行情数据,基本面数据。行情数据不仅包括与金融产品价格相关的数据,也包括从交易行为中得到或提取的其他信息,如交易量、交易时间、交易对手方等。基本面数据包含的范围比较宽泛,从某种意义上讲,基本面数据是指行情数据之外的所有数据,最常见的有资产负债表、利润表和现金流量表等。
数据可以通过多种途径获取,最直接也最具挑战性的是从源头直接获得原始数据,然后自己加工、清洗。这种方式的优势是可以最大限度地控制数据的清洗和存储,但成本很高。更常见的做法是使用专业的数据供应商提供的加工后的数据,可以给研究团队带来很多便利,但因为数据的传输环节中多了中间商,就丧失了速度优势以及对数据清洗和存储的控制权。
尽管原始数据供应商或第三方数据供应商在数据质量方面做了很多工作,但仍会不可避免地出现数据缺失或错误的情况。如果忽视这一问题,可能会带来严重的后果。因此,研究团队在使用数据时必须有数据缺失处理和异常值过滤的机制,以及时识别缺失的数据或出现异常值的数据并进行处理,通常会需要对不同数据源的数据进行交叉检验。在清洗数据时,还要注意避免引入「前视偏差」问题,「前视偏差」简单说就是「昨天之前已经知道了昨天的新闻」。
 
(本章节完结)