回归分析是论文写作中最常见的定量分析方法,没有之一。但其形式比较单一,容易形成固定思维,导致分析缺乏多样性。解决数据分析多样性不足最大的挑战不在于“会不会分析”,而在于“没有备选方案”。
因此,本文以具体的案例来简单介绍除了回归分析以外,目前几种比较通用的定量分析方法,从而扩充“分析工具库”,以备需要时能够想到这些分析方法。
蒙特卡洛模拟是一种常见的模拟技术,主要用于风险管理或者类似领域的数据分析,其主要利用大量全覆盖的数据模拟来穷尽所有可能的场景,从而来分析其可能性的方法。比如$X_1$、$X_2$和$X_3$为$Y$的影响因素,公式表达为$Y= X_1^2 + X_2^2 + X_3^3$。如果已知$X_1,X_2,X_3$各有10个数据(或者数据等级),则$Y$一共就有$10^3 = 1000$个数据(或者可能性),这时可以分析这1000个数据来确定Y的范围和分布情况。
一个比较好的例子就是求$\pi$,如下图所示。在正方形内随机产生一定数量的点,然后对落在圆内部的点进行统计分析,得到落在圆内部点的比例。这时可以通过正方形的面积和比例来求圆的面积,从而来计算$\pi$。这里用于统计的点数越多,$\pi$的预测精度越高。
因子分析就是找出各个参数背后的共性因素,达到降低参数分析个数的目标,属于数据的降维分析,是统计学里面常用的方法。其最开始由英国心理学家斯皮尔曼根据学生成绩好坏分析时提出。
比如学生有语文、数学、物理、外语、地理、化学六门课,其总成绩则受这六个参数影响。但通过发现,学生各科成绩之间存在一些关系。比如语文成绩较好的学生,其外语和地理成绩也较好,而数学成绩较好的学生其物理和化学成绩也较好。所以可以将这六个因素分别归类为包含语文、外语和地理的“文科思维”,以及包含数学、物理和化学的“理科思维”。
这样数据分析则由原来的六个因素简化到二个,不仅对数据进行了降维,而且还分析和归纳了这六个因素背后的具体原因。
群组分析可能跟上述的因子分析有些相反,属于数据的增维分析。分析中对相应数据不是统一进行分析,而是按照具体特性(比如年龄、吸烟史等)进行分组,从而对比不同组之间的差别,确定该特性对数据的具体影响。
一个典型的案例就是分析不同人群(比如男和女)吸烟对患病死亡率的分析,如下图所示。
聚类分析与上述群组分析类似,但分析的顺序不一样。群组分析是对样本对象通过已知的属性进行分组(比如吸烟),然后按照组别进行数据分析。
而聚类分析恰好相反,是由具体数据显现的特点而总结归纳出各个分组(或者聚类)划分的属性。比如通过数据聚集的特点,发现数据显现如下图的四组数据,然后得到不同组数据的划分依据为年龄等因素。
划分聚类的方法有很多,常见的为Kmeans方法,其对给定的数据样本之间的距离大小进行计算,假定“距离”越小的各个数据之间相似性越高。距离的指标包括欧氏距离(Euclidean distance)、欧氏距离的平方(Squared Euclidean distance)、曼哈顿距离(Block)、切比雪夫距离(Chebychev distance)、卡方距离(Chi-Square measure) 等。
对相关事件通过事件顺序按阶段进行分析。事件序列分析的方法虽然在统计学中应用较多,但在其他工程领域的应用也较多,比如火灾发展各个阶段数据的分析。
以上介绍的五种定量分析方法,下面总结一下写作checklist:
参考资料