雷暴在今年首次光临这座沿海城市,轰轰烈烈、来者不善。乌云近得像要压住人们的头顶,侵蚀入云的高楼。这番景象于我也是第一次在 CBD 看到,场面还是颇具视觉冲击力的。幸运的是,下班的时候再次云开日出,看来这气象也并非不近人情。

今日的工作除了继续整理新的数据之外,还将过往的数据整理成一个更加符合入库标准的格式,尽管我个人认为这一形式并不合理,公司应该学习我的数据整理方式(瞎说的)。

房地产的数据大都频率很低,因此为了找到周频乃至日频的数据,我翻遍了同花顺的数据库,还做了一些将地市级层面数据合成为宏观数据之类的操作。实际上,高频数据往往来自各种行业业务平台网站,因此往往是二手房成交价、二手房挂牌价等等指标。好在房地产行业很多指标都与螺纹钢的相关性较大,现有的数据应该可以作一些文章。

在相关性方面,值得担忧的事情有三:

  1. 数据的前瞻性。仅计算了即期数据相关性,而这样的相关性本质上是无用的,因为若要参考基本面数据来配置资产,那么基本面的数据必须要领先于资产价格数据。然而,这些基本面数据对于价格数据的前瞻性并没有得到研究。

  2. 数据的频度问题。用于计算相关性的两两指标往往具有不同的频率或者发布时间,我的做法是将所有数据都利用 quadratic 差值升级到日频数据,然后再计算近三年的数据相关性,但是不知道这一方法是否合适。此外,频度不同也意味着对齐频率后波动率有很大差异,这一特点也可能导致计算出来的相关性存在偏差。

  3. 数据的发布时间。仅考虑数据所对应的时间是不全面的,因为大部分基本面数据都不能做到及时发布,而个别极端数据甚至过了两三年才发布月频数据,因此在计算因子时可得的最新数据是一个需要小心的问题。实际上,iFind 和 WIND 都不能像钢联那样提供数据的发布规则,因此目前来看,可能的解决方案只有利用目前的最新数据对应时间和数据更新时间,来推算数据发布方式。

面对单纯的数据始终是一种枯燥的体验,回测框架的培训时间又改到了周四。看来实操练上手的时刻还需要耐心等等。