戏剧性的三天先吐槽一下:

暴雨开局/80w个数据/Excel民工/word指挥官/盒子空间/透明厕所玻璃/无门浴室/熬大夜之后直接回校跑了个1km,跑完回去接着干活/极限提交操作/结题夜宵喝了两杯,烧烤甚至忘记还钱了!

是全力以赴、团结协作、恣意享受的三天半。

复盘

选题

第一天晚上六点准时开始看题,一开始大概看了三道题,觉得A、B都有比较浓厚的物理建模的成分,C题看起来很常规,我们也很有把握,觉得如果选了C题不管怎么样肯定能做做完,而且会有很多人选,很难获奖。于是我们大概拉了一遍流程之后(直到这里也没觉得C有什么问题)就去看A题了。A题不仅题目里给出了很多参考文献,在知网上也能找到很多相关的论文,特别是兰州交通大学的学位论文。在读论文的过程中我也发现了一个开源的仿真软件能够导入坐标、模拟出定日镜场的模型。看起来非常酷炫,感觉图像这一块是稳了(因为先前物理背景的题比较担心的是一些物理的专业图形规范作图)。于是我们开始八点左右到快十点,三个人开始研究A题怎么做。可惜最后我们没能研究出各种阴影遮挡的处理方法,解决不了这个问题,A题最基本的物理模型就无法建立起来。按照时间安排,第一天晚上睡觉前必须把选题定下来,所以我们最终还是回到了我们相对比较有把握的C题。

数据处理

于是第二天早上,我们开始处理C题了。我们一开始还算比较顺利,采用了复编码的方式把题目给的蔬菜编号都重新编排了一次。我们后续的整个模型都是建立在此基础上的。

然后我们遇到比较大的一个问题就是,我们需要许多的特征量、统计量,而附件的数据零零碎碎,最大的一个附件2有80多w的数据,比我们之前在暑假练习的深圳杯足足多了100多倍(深圳杯有一题的数据规模是7k多)。所以matlab几乎无法对完整的原始附件进行操作。我们只能采用excel手动进行数据透视表的方式进行体力活动式的处理。

除了数据规模大,数据的层次也非常复杂。时间维度、货物季节性差异等让整个数据的处理非常繁杂。如果想要精度很高的数据,付出的时间精力代价非常庞大。所以我们只能在模型假设的前提下对数据的提取进行简化,在比较高的层次对数据进行统计整合,最终捣鼓出了一批批可用的量。

模型建立

我们采用的主要模型是线性规划。但是非常不幸地,我们第一次放进lingo跑的效果并不理想。matlab的一些函数拟合,要么有些违背常理,要么有些拟合优度非常低……

我们第一反应还是数据精度不够导致的。于是在进行一些心理挣扎之后还是选择尝试用python辅助,再结合excel的数据透视表进行处理。

数据精度起来之后,我们重新跑了模型,最终的结果比原先的好,但是也不算特别理想。但是没有办法我们只能硬着头皮去调参、去增加扰动项和约束条件,最终我们的模型还是有了一定的效果。

论文写作

最后评价体系那一段的论文和公式、符号什么的没有充足的时间打磨,个人感觉略显草率,但是应该影响不会特别大……。

反思

场地选择

如果确定一定会参赛建议提前预约图书馆的小会议室。但是缺点是图书馆不能通宵。适合前两天还不需要通宵的时候。

也可以选择去穗石的盒子空间开个双人间,开两个晚上就行(最后一晚通宵和最后一天的提交工作)

工具链

  • 没有早点投入python的怀抱,有点畏惧巨量数据的处理
  • 没有应用数据库,数据处理上可能效率低了一些?也不好说。
  • lingo太难用了,GPT也不太会
  • origin、ssps等工具以及相关模型的应用、python代码的调试,都是用过但不是特别熟悉或者刚开始接触,花在摸索上的时间有点多

知识储备

之前一整个暑假的备赛(好吧可能正经也就两周,一个深圳杯),新学到的机器学习等模型、新掌握的XGBoost拟合方法和数值模拟或者说蒙特卡洛这些听上去比较牛的方法都没用上,不太合适或者说时间不允许。怪可惜了。

所谓创新点

暑假答辩的时候,数院的老师们老是强调要有差异化要有创新点。可这又谈何容易?!

这个题真不知道该往哪创新了……我们的关键模型特别简单,就是线性规划模型加一些约束条件,其实就是对题目的翻译。没有其他复杂或是精妙的数学结构。唯二觉得可能能算是创新的可能是复编码(这个想法比较直觉,一拿到题就想这样做了。其实我觉得其他队伍也会做)和单品筛选的指标综合评价体系了(杂揉了各种方法,也不知道合不合理,就摁参考老哥给的论文和GPT……因为时间紧有点乱,还debug花了些时间)。

时间安排

还是比较紧张的,基本上都跟规划的理想时间有滞后。原因是每做一步就卡一步。卡在模型的效果不好或者是某个数据处理不出来。

以及每一个看似人畜无害的问题背后都有很多需要考虑的问题,只有你真正开始着手用数据构思的时候才会发现……不然光看题是没办法分辨出来的。

提交规则

国赛组委的提交规则变来变去的。

总结一下就是,下载论文提交的客户端,在最后一天的晚上八点前可以提交一份论文和一份支撑材料的md5码。八点之后十点前还有最后一次机会提交md5码。切记md5码提交之后原文件不能再打开。晚上十点之后可以提交论文和支撑材料原件,建议早点交不然塞车就得排好久队了。

一开始也没做好准备,搞得最后大家很紧张,还好最终都顺利提交了~

最终结果

预计十月中旬出结果,希望努力有点回报!