3. 经验总结

数据题思路(国赛)

  1. 建模总思路 + 子任务 + 难点

  2. 方法合理性 = 模型过检验 + 结果可解释

  3. 敏感性分析

步骤

数据预处理(必须!!!)

难点与方案

数据丑 解决方案
样本量小 数据增强(通过变换平移样本,获得更多数据)
缺失值多 1. 若缺失值的样本很少,删除含有缺失值的样本 2. 删除缺失值很多的特征 3. 插值(用机器学习(KNN, SVM)补差)
定类变量 SVM, KNN 分析聚类
样本量非常小 正向化

要点

补全 > 剔除
$2/3$页作为预处理

指标的选择!!!(非常重要)

Category Concept
平均值
稳定性 方差标准差衡量
连续性 用ACF(自相关函数)描述,并可视化
频率 根据具体题目而言
比例 根据具体题目而言
必须要详细

模型的选择

慎重选择的模型

可用的模型列举

  • 回归

  • 拟合

  • 基于TOPSIS的熵权法(典型的无监督学习)

结果

  • 预测精度要说明

  • 一定要检验!

解释模型

  • 数学公式解释

  • 并指出具体的指标

写作(美赛应该很不一样)

Abstract

In General

  • 摘要总体结构 = 总述*1 + 子任务 *n + 优势*1

  • 总述 = 总目的/总流程(本文解决的核心问题是…)

  • 每段子任务 = 子目的 + 方法 + 数字结果(如果有) + **难点解决 + 评论}

  • 一句话总结 + 优势

In Detail

  • 第一次出现的术语要写全称

  • 重点加粗, 不要太多

  • 重复使用词汇

Ways of Description

算法 表格 参考文献 公式 附件
引用时要指出引用图片 通过伪代码自然语言描述!! 统一风格 5-15个之间 重要公式要加编号 指出是题目所给附件
不要连续给多个图 描述完算法后,再指出使用附录中的代码 表格上方编号 公式符号不使用英文单词,容易引起歧义
一定要解释图像 算法的介绍和解释一定不能,要具体 三线表
  • 图表一定要具体引用

其他

  • 非技术性报告要图文并茂

  • 建模过程中可能出现分段拟合的情况,分段进行建模

  • 确定模型后,要将模型的定义和方法再结合题意复述一遍

  • 模型假设时可以考虑的两个角度:一是对数据的可靠性,二是对其他影响因素忽略不计

  • 数据预处理时用到的理论也要进行说明

  • 列表简化数据的表述

赛前准备

  1. 看往年题,分析思路

  2. 分析优秀论文

  3. 增强检索能力,学会搜索专利

  4. 图、表、方程的引用问题 (序号会变)

  5. RNN代码

Licensed under CC BY-NC-SA 4.0
comments powered by Disqus
Built with Hugo
Theme Stack designed by Jimmy