预测模型简介

建模者根据已有信息为未知情况进行推断(prediction)。我们这里将分类等问题也都视为预测问题，与机器学习方法对预测的定义保持一致。上面提到的“变化”类模型也可以进行预测，这一部分内容本课程主要强调机器学习方法在预测中的应用。近些年一些赛题的解决方案也因机器学习方法的采用而增加了竞争力：

2016年A题 Swim, Bike, and Run，对铁人三项各类运动员出发时间进行安排可使用聚类分析的方法
2018年A题 Roller Coaster，过山车数据中的残缺值处理可采用回归或分类的方法
2018年B题 Cozy Smart House，可以使用机器学习中神经网络等方法进行数据预测

预测模型主要以机器学习方法为主，包括监督学习（回归、分类）和非监督学习（降维、聚类）等。神经网络模型在这些年受到尤其多的关注，也可以介绍重要的神经网络框架，包括CNN,RNN,LSTM,ResNet等。

数据预处理

数据预处理有助于提升预测模型的准确度，减少异常值的干扰。

预测模型分类

机器学习模型

机器学习(ML)是研究通过经验和数据的使用来自动改进的计算机算法。它被视为人工智能的一部分。机器学习算法基于样本数据构建一个模型，称为“训练数据”，以便在没有明确编程的情况下做出预测或决策。机器学习算法被广泛应用于医学、电子邮件过滤和计算机视觉等领域，在这些领域，开发传统算法来执行所需任务是困难的或不可行的。机器学习的一个子集与计算统计学密切相关，后者专注于使用计算机进行预测;但并不是所有的机器学习都是统计学习。数学优化的研究为机器学习领域提供了方法、理论和应用领域。数据挖掘是一个相关的研究领域，专注于通过无监督学习进行探索性数据分析。在跨业务问题的应用中，机器学习也被称为预测分析。

监督学习算法建立一组数据的数学模型，其中包含输入和期望的输出。这些数据称为训练数据，由一组训练示例组成。每个训练示例都有一个或多个输入和所需的输出，也称为监视信号。在数学模型中，每个训练样本用一个数组或向量(有时称为特征向量)表示，训练数据用一个矩阵表示。通过目标函数的迭代优化，监督学习算法学习一个函数，可以用来预测与新输入相关的输出。一个最佳函数将允许算法正确地确定不属于训练数据一部分的输入的输出。一种随着时间的推移提高其输出或预测准确性的算法被认为已经学会了执行该任务。监督学习算法的类型包括主动学习、分类和回归。当输出仅限于一组有限的值时，使用分类算法，当输出可能有一个范围内的任何数值时，使用回归算法。例如，对于过滤电子邮件的分类算法，输入将是传入的电子邮件，输出将是将电子邮件归档的文件夹的名称。相似学习是监督机器学习的一个领域，与回归和分类密切相关，但其目标是使用衡量两个对象的相似或相关程度的相似函数从示例中学习。它在排名、推荐系统、视觉身份跟踪、面部验证和说话人验证等方面都有应用。

非监督学习算法获取一组只包含输入的数据，并在数据中查找结构，比如对数据点进行分组或聚类。因此，算法从没有标记、分类或分类的测试数据中学习。非监督学习算法不是对反馈做出响应，而是识别数据中的共性，并根据每个新数据中是否存在这种共性做出反应。无监督学习的一个主要应用是在密度估计领域的统计，如寻找概率密度函数。虽然无监督学习包括其他领域，包括总结和解释数据特征。聚类分析是将一组观测数据分配到子集(称为聚类)中，以便根据一个或多个预先指定的标准，同一聚类中的观测数据是相似的，而从不同的聚类中提取的观测数据是不同的。不同的聚类技术对数据的结构做出不同的假设，这些假设通常由一些相似性度量定义，并进行评估，例如，通过内部紧凑性，或同一集群成员之间的相似性，以及分离，即集群之间的差异。其他方法基于估计的密度和图连通性。

机器学习

案例

速查表

数据科学速查表

网站资源

可解释机器学习

时间序列模型

时间序列是按时间顺序索引(或列出或绘制图表)的一系列数据点,是一个离散时间数据序列。时间序列的例子如海洋潮汐的高度，太阳黑子的计数，道琼斯工业平均指数的每日收盘价等随时间的变化。时间序列用于统计学、信号处理、模式识别、计量经济学、数理金融、天气预报、地震预报、脑电图、控制工程、天文学、通信工程，以及主要用于任何涉及时间测量的应用科学和工程领域。时间序列分析包括分析时间序列数据的方法，以提取数据的有意义的统计信息和其他特征。时间序列预测是利用一个模型，根据以前的观测值来预测未来的值。中断时间序列分析用于检测一个时间序列从之前到之后的变化，这些变化可能会影响潜在的变量。时间序列数据具有自然的时间顺序。这使得时间序列分析不同于横断面研究，在横断面研究中，观察结果没有自然顺序(例如，通过参考人们各自的教育水平来解释人们的工资，个人数据可以以任何顺序输入)。时间序列分析也不同于空间数据分析，在空间数据分析中，观察结果通常与地理位置有关(例如，根据位置以及房屋的内在特征来计算房价)。一个时间序列的随机模型通常会反映这样一个事实:在时间上靠近的观测结果会比相隔较远的观测结果更接近。

课件资源

网站资源

灰色预测

灰色系统理论是研究解决灰色系统分析、建模、预测、决策和控制的理论，是一般系统论、信息论、控制论的观点和方法在社会、经济、生态等抽象系统中的延伸，是运用经典数学知识解决信息不完备系统的理论和方法。灰色系统是指部分信息已知部分信息未知的信息不完备系统。

灰色系统理论（grey system theory）的创立源于20世纪80年代。邓聚龙教授在1981年上海中—美控制系统学术会议上所作的“含未知数系统的控制问题”的学术报告中首次使用了“灰色系统”一词。1982年，邓聚龙发表了“参数不完全系统的最小信息正定”、“灰色系统的控制问题”等系列论文，奠定了灰色系统理论的基础，他的论文在国际上引起了高度的重视，美国哈佛大学教授、《系统与控制通信》杂志主编布罗克特（Brockett）给予灰色系统理论高度评价，因此，众多的中青年学者加入到灰色系统理论的研究行列，积极探索灰色系统理论及其应用研究。

事实上，灰色系统的概念是由英国科学家艾什比（W. R. Ashby）所提出的“黑箱”（black box）概念发展演进而来，是自动控制和运筹学相结合的产物。艾什比利用黑箱来描述那些内部结构、特性、参数全部未知而只能从对象外部和对象运动的因果关系及输出输入关系来研究的一类事物。邓聚龙系统理论则主张从事物内部，从系统内部结构及参数去研究系统，以消除“黑箱”理论从外部研究事物而使已知信息不能充分发挥作用的弊端，因此，被认为是比“黑箱”理论更为准确的系统研究方法。

所谓灰色系统是指部分信息已知而部分信息未知的系统，灰色系统理论所要考察和研究的是对信息不完备的系统，通过已知信息来研究和预测未知领域从而达到了解整个系统的目的。灰色系统理论与概率论、模糊数学一起并称为研究不确定性系统的三种常用方法，具有能够利用“少数据”建模寻求现实规律的良好特性，克服了资料不足或系统周期短的矛盾。

灰色预测的主要特点是模型使用的不是原始数据序列，而是生成的数据序列，即对原始数据作累加生成（或其它方法生成）得到近似的指数规律再进行建模的方法。

优点是

不需要很多的数据，一般只需要4个数据就够，能解决历史数据少、序列的完整性及可靠性低的问题；
能利用微分方程来充分挖掘系统的本质，精度高；
能将无规律的原始数据进行生成得到规律性较强的生成序列，运算简便，易于检验，具有不考虑分布规律，不考虑变化趋势。

缺点是只适用于中短期的预测，只适合指数增长的预测。

课件资源