上午继续昨天的工作,又跟那个数据指标死磕了一会,简单移动平均线(SMA)对最近的极端趋势反映能力较弱,因此我将其替换成了指数移动平均线(EMA),再取一次时序滚动排序值,以此作为最终的因子。测试了一下,效果不算很好;替换了几组不同的参数,发现收益对参数比较敏感。于是,我以 5 为步长,对 EMA 的 $\alpha$ 和时序滚动排序值的窗口参数网格寻优,发现收益较好的参数大致集中在某一个区域,于是我取这块区域中心位置,作为最终的参数。查看了一下这组参数下的净值曲线,确实还算不错。出于谨慎,我直接测试了这组参数在测试集中的表现,好像真的还可以!这意味着,这样的挖掘方式应该是能够出活的。

我最终选择的参数组合是 (25, 60)

样本内回测净值

今天接下来的时间,我又测试了另外两个基本面数据。数据的处理方式各有差异,但是挖掘方式基本相同——盯数据,找规律,并尝试对数据进行处理来反映这一规律,最后再参数寻优。

事实上,由于基本面数据样本量较少,参数太多存在很高的过拟合风险。因此,在模型只有两个参数的情况下,若效果好的参数集中在某一范围之内,才能有勇气去尝试这样的参数组合。

到目前为止,我所处理的都是需求数据。需求当然是价格的重要作用因素,但如果仅考虑需求则难免偏颇。根据我的理解,最基础的价格形成因素就是需求和供给,因此至少还需要考虑供给因素。当然,政策、预期、突发事件、情绪也是重要的因素,但我目前的想法是先把需求和供给,或者供给与需求之差给做好。

时至周五,周末的氛围已经洋溢在办公室的空间。恰逢季度生日会,办公室的同事们都没有心思工作了,我也收到怂恿去现场蹭吃蹭喝。房间的甜点琳琅满目,还有参加飞叠杯游戏赢奖品的环节,但是我还是决定以食物为主。吃了点水果、蛋糕和肯德基的鸡翅,味道都还不错,心满意足地带上书包下班,白嫖的感觉真好。