作者:王有才
上次谈到了用intrinsic naming convention创造出来的features解决了model performances在OOT上(Out-Of-Time)validations的问题。这个是我解决这个项目的巨大的一步。或者说找到了这个问题的数学,统计学,和数据科学领域的解。我为自己感到骄傲,居然能够找到这样的解决方法。当然发现这个方法之后好像感到原来是这么简单。有了这个方法,ARIMA,Prophet这些方法肯定过时了。
不过我还没有把它公开写出论文,也没有这样的计划。
问题是,虽然这个问题数学、统计学,数据科学方面得到了解决,至少在R-squared上如此,但如何在Business Models上得到解决呢?实话说,这个让我伤透了脑筋。本来的algorithms以及optimizations就是跟我们所需的Business Models的Requirements是矛盾的。或者说数学的解决方法的答案不是商业的方法。这个是专利的缘由。数学解应该没有专利的,但技术或者商业解就有专利和商业和资本的价值。
我这些月一直在寻找数学、统计学和数据科学之上的Business求解。我真的感到我江郎才尽,找不到方法。虽然我又从instrinsic naming conventions有了进一步的发展,从统计学的角度说,结果更漂亮了。但漂亮是用来“骗人的”。我自己知道从individual的角度上,这个进展不大。或者说,从individual的角度说,Risk还是很高的。非常不满意。我真的很绝望。
预测未来本来就不容易。出现困难应该是正常的。但是我们现在的Business Requirements是与以往的Business Requirements非常不同的。这个dependent variable也是与我以往我在花期银行的Response, Balance, Spend, Balcon Response, Balcon Amount, Deposit, default rate等都不一样。它不是只要求从高到底或从低到高选deciles或者percentiles就可以了。它对所有deciles甚至percentiles都要关注。这个不是预测(predict)的要求,这个是探测(detect)的要求。我无能为力。真的想放弃。
我已经很久不说话了。在公司的任何场合不会有我的任何声音。我无能解决这个问题。每天不断地重复创建新的Data,重新Train和Tuning Models,少有进步。昨天发现了关于数据maturity的问题,与数据工程的同事开了一个会,总算开口说话,跟他们谈了我发现的数据maturity的现象和问题。同时告诉他们我现在面临的困境。非常困难的项目。等等。会议之后继续做工作。真的很累。睡觉。
半夜三点钟突然惊醒,我梦见了美是在真实(Actual)中,要从实在的真实中找到美。于是赶快起来,打开电脑,start instance。从我的真实数据中找到美。不要从predict中找答案。运行了几个cases,发现美在真实的数据中。我应该说找到了求解的方法。太高兴了,实在应该记录下来。这个是我这个项目的第五个大的Milestone。
应该去吃早饭了,从今天开始,有新的进展了,不是简单的重复。这个项目有望很快结束了。
虽然很累,但也很兴奋。
感谢作者授权人类党网站发表!
注:文章观点仅代表作者本人。
阅读更多: