数据题思路(国赛)
-
建模总思路 + 子任务 + 难点
-
方法合理性 = 模型过检验 + 结果可解释
-
敏感性分析
步骤
数据预处理(必须!!!)
难点与方案
数据丑 | 解决方案 |
---|---|
样本量小 | 数据增强(通过变换和平移样本,获得更多数据) |
缺失值多 | 1. 若缺失值的样本很少,删除含有缺失值的样本 2. 删除缺失值很多的特征 3. 插值(用机器学习(KNN, SVM)补差) |
定类变量 | SVM, KNN 分析聚类 |
样本量非常小 | 正向化 |
要点
补全 > 剔除 | |
---|---|
$2/3$页作为预处理 |
指标的选择!!!(非常重要)
Category | Concept |
---|---|
平均值 | |
稳定性 | 用方差、标准差衡量 |
连续性 | 用ACF(自相关函数)描述,并可视化 |
频率 | 根据具体题目而言 |
比例 | 根据具体题目而言 |
必须要详细 |
模型的选择
慎重选择的模型
可用的模型列举
-
回归
-
拟合
-
基于TOPSIS的熵权法(典型的无监督学习)
结果
-
预测精度要说明
-
一定要检验!
解释模型
-
数学公式解释
-
并指出具体的指标
写作(美赛应该很不一样)
Abstract
In General
-
摘要总体结构 = 总述*1 + 子任务 *n + 优势*1
-
总述 = 总目的/总流程(本文解决的核心问题是…)
-
每段子任务 = 子目的 + 方法 + 数字结果(如果有) + **难点解决 + 评论}
-
一句话总结 + 优势
In Detail
-
第一次出现的术语要写全称
-
重点加粗, 不要太多
-
不重复使用词汇
Ways of Description
图 | 算法 | 表格 | 参考文献 | 公式 | 附件 |
---|---|---|---|---|---|
引用时要指出引用图片 | 通过伪代码或自然语言描述!! | 统一风格 | 5-15个之间 | 重要公式要加编号 | 指出是题目所给附件 |
不要连续给多个图 | 描述完算法后,再指出使用附录中的代码 | 在表格上方编号 | 公式符号不使用英文单词,容易引起歧义 | ||
一定要解释图像 | 算法的介绍和解释一定不能泛,要具体 | 用三线表 |
- 图表一定要具体引用
其他
-
非技术性报告要图文并茂
-
建模过程中可能出现分段拟合的情况,分段进行建模
-
确定模型后,要将模型的定义和方法再结合题意复述一遍
-
模型假设时可以考虑的两个角度:一是对数据的可靠性,二是对其他影响因素忽略不计
-
数据预处理时用到的理论也要进行说明
-
列表简化数据的表述
赛前准备
-
看往年题,分析思路
-
分析优秀论文
-
增强检索能力,学会搜索专利
-
图、表、方程的引用问题 (序号会变)
-
RNN代码