如果问在过去的一个世纪中, 影响社会科学研究最大的统计方法是什么, 想 必非因素分析与回归分析莫属。1904 年, Spearman 提出了心理特质的潜在结构 因素分析模型, 开启了潜在变量模型的大门。另一方面, Wright 自 1918 年开始, 将回归分析扩大到对多重联立方程的估计, 正式将回归分析提升到路径模型的层 次。百年来, 潜在变量模型与路径分析这两个重量级的量化范式各拥其主, 蓬勃 发展, 却始终没有交集。直到 20 世纪 70 年代, Jöreskog(1973)利用数学矩阵 的观念将两种范式巧妙整合, 开创了一个崭新的量化研究范式, 正式宣告结构方 程模型(structural equation modeling, SEM ) 的时代来临。 就方法层面来说, SEM 是一门基于统计分析技术的研究方法学(statistical methodology ), 可用来处理对复杂的多变量研究数据的探究与分析。重要的是, SEM 能够同时进行潜在变量的估计与复杂自变量/因变量预测模型的参数估计, 也因此被归为多变量统计( multivariate statistics)的一环。自从 Jöreskog(1973) 提出最大概似参数估计的 SEM 分析概念, 并发展出 LISREL 软件来进行繁复的计 算程序之后, SEM 已成为当今社会与行为科学计量研究中最重要的一个统计方法 范式。到现在, SEM 不仅拥有专属的期刊《结构方程模型》( Structural Equation Modeling 、无数专著, 更有多种专门的统计软件, 使得 SEM 的应用大为普及。 值得一提的是, 早在 20 世纪 90 年代初期, SEM 研究者即成立了虚拟网络社 区. SEMNET, 截至 2018 年 4 月, 注册会员已经超过 3500 位学者专家, 是一个非常庞大的虚拟化研究讨论社区 ' ${ }^{\prime}$, 平均每日会有 $10 \sim 15$ 封讨论邮件, 见图 $1.1$ 。分 享者或提问者包括了硕博士研究生、研究人员、教师等, 参与讨论者不乏 SEM 领 域的重要学者, 如 Bentler、Mulaik、Marsh、Hayduk 和 Muthén 等人。在讨论过程 中, 学者们会分享重要文献, 甚至提供文件下载链接, 分享新书出版消息与研讨会讯息, 从中可以获得第一手信息, 是一个非常活跃的讨论平台。
SEM 的一个重要特性是能够对于抽象的构念 ( construct) 进行估计与检验。 社会与行为研究经常必须处理一些抽象的概念, 例如, 当我们问 “你幸福吗? ” 的时候, 针对抽象的概念, 我们必须给予一个操作化的定义, 以便通过该程序来 得到具体的数据, 用以反映不同个体在该概念上的强度。此时, 我们具体测量的 变量被称为外显变量(manifest variable)、观察变量( observed variable)或测量变量(measured variable)。这些可以直接获得数据的变量若是受到同一个潜在构 念的影响, 则会具有共同性, 反映在变量之间的共变关系上。如果针对这些变量 之间的共同性加以估计, 所得到的能够反映该潜在构念的强度的数据被称为潜在 变量 ( latent variable )。
在具体用来获得潜在变量的研究策略中, 最典型的代表是因素分析 ( factor analysis 。因素分析系利用一组测量同一个构念的观察变量来估计背后的潜在变量。传统因素分析针对的是观察变量的背后具有哪几个潜在变量, 以及潜在变量与观察变量之间的关系为何。它无法事前预知, 直到数据搜集完成之后, 才进行 变量间的共变关系分析, 抽取出最适当的因素, 确立一个最佳的因素结构模型, 并为潜在变量命名。从这一程序进行的因素分析而得到的潜在因素是一种经验性 的潜在变量, 因而被称为探索性因素分析(exploratory factor analysis, EFA)。 相对而言, 在 SEM 中, 潜在变量的概念与内涵基于理论的推导, 且潜在变 量与观察变量的关系是在资料搜集完成之前(事先)提出的假设性概念, 然后通 过实际搜集的数据, 分析比对假设模型与观察到的数据之间的一致性或差异性, 来决定研究者对于潜在变量所提出的假设性看法是否恰当, 即模型拟合分析。 以此种模型进行的因素分析称为验证性因素分析 ( confirmatory factor analysis, CFA ), 即一种先验性的、由事前的潜在变量定义的模型。
社会及行为科学研究的变量关系通常并不是单纯地对一个变量的推论或两变 量关系的讨论, 而是涉及一组变量之间关系的讨论, 这一组变量除了存在数学的、 表面上的关系外, 可能还存有潜在的因果性( causality ) 或阶层性( hierarchy )。例 如, 在一项对于学业表现的研究中, 最常用的解释变量为智力。然而, 研究者可能 会考虑到除了智力(IQ) 因素, 学生先前的学习经验 (Exp) 也会影响学生的学习 表现(GPA)。而先前学习经验的影响还可能基于成就动机(Ach)的中介作用, 间 接影响学业成就。从上述概念中, 可以得到如下的研究方程: $$ G P A=a \times I Q+b \times \operatorname{Exp}+c \times A c h+e_1 $$ $$ A c h=d \times E x p+e_2 $$ 上述两个公式描述了智商、学习经验、成就动机与学业表现四个变量 相互影响的途径, 也就是变量的结构性关系。若以图形表示, 公式 $1.1$ 与公式 $1.2$ 可绘制成图 $1.3$ 所示的路径图(path diagram )。 图 $1.3$ 当中的实线反映了公式 $1.1$ 与公式 $1.2$ 的关系, 但是由 $I Q \rightarrow A c h$ 的关 系并末在两个公式中定义, 因此在图 $1.3$ 当中不应该标出来, 而仅以虚线表示。 但是如果过去的文献或理论认为智力会影响成就动机, 那么对 $I Q \rightarrow A c h$ 必须加以检验, 而在图 $1.3$ 当中改以实线表示。换言之, 如果研究者调整变量之间的假设关系或扩增研究变量, 所需检验的变量间关系将更为复杂, 对于可支持研究正 当性的理论基础与逻辑推理的需要也就更为迫切。
此外, 如果再把潜在变量的观念加以考虑, 就是将图 $1.3$ 当中的各个变量改 以椭圆形外框表示, 每一个潜在变量由一组观察变量萃取得出, 整个模型即成为 一个典型的结构方程模型。社会与行为科学领域探究的变量结构性关系大多是由 一群无法直接观察与测量的抽象命题或构念组成的。此时, 必须先针对这些构念 的定义运用 CFA 来确认每一个构念内在结构的适切性, 然后进一步检验潜在变量 间的结构关系,这也是 SEM 的主要长处之一(Bollen, 1989)。 总之, 不论是对变量因果关系的证明, 还是对构念内在结构的确认, 均有赖 于事前研究变量的性质与内容的厘清, 并清楚地描述变量的假设性关系, 通过研 究者提出具体的有关结构性关系的假设命题并寻求统计证据来确认。整个过程即 是 SEM。
SEM 的另一个特征是模组化分析的应用。利用先前所讨论的假设检验与结 构化验证功能, SEM 可以将一系列研究假设同时构造成一个有意义的假设模型 ( hypothetical model ), 然后经由统计的程序对于这一模型进行检验。在不同的模 型之间,则可进行竞争比较。 在社会与行为科学的研究中, 研究者往往会因为理论观点的不同而对同一组 变量之间的假设关系产生不同的主张。因此, 研究者可以基于不同的理论与假设 前提, 发展出不同的替代模型(alternative model), 进行模型间的竞争比较。如 此利用假设模型进行统计检验的优点是大大改善了传统路径分析对在多组回归等 式间进行同时估计的限制, 也提高了分析的应用广度。
Jöreskog 与 Sörbom(1996)指出, SEM 的模组化应用策略有三个层次:第 一是单纯的验证 ( confirmatory), 也就是针对单一的先验假设模型, 评估其适切 性, 称为验证型研究; 第二是模型的产生(model generation), 其程序是先设定 一个起始模型, 再与实际观察数据进行比较, 从而进行必要的修正, 反复进行估 计程序以得到最佳拟合的模型, 称为产生型研究; 第三是替代模型的竞争比较, 以决定何者最能反映真实资料, 称为竞争型研究(competitive modeling )。
Maccallum 与 Austin(2000)从文献整理中发现, 以单纯的验证与模型产 生为目的的 SEM研究约占 $20 \%$ 与 $25 \%$, 涉及竞争比较的 SEM 研究则有 $55 \%$ 。 Maccallum 与 Austin(2000) 认为, 模型产生型 SEM 研究有其限制, 尤其在模型 修饰的过程中, 往往过度依赖数据所呈现的讯息而忽略理论的意义。过度滥用修 正程序以获得对自己有利的结果, 是相当危险的做法, 使用者应小心为之。相对 而言, 竞争比较的研究则有较为强固的理论基础, 修饰问题较少, 而可以发挥较 大的弹性与说服力。
SEM 的这一模组化分析功能的最主要的一个贡献, 即是为社会与行为科学研 究界对于抽象理论进行实证的检验提供了一套严谨的程序, 使得研究者可以通过 统计分析去检验所提出的理论模型(theoretical model )。此举将对假设检验的运 用自对单一参数的考验提升至更高层次的对理论模型的整体考验, 突破了传统计 量技木村于理论模型欠缺整合分析能力的困境。
Hoyle(1995)指出, SEM 可被视为不同统计技术与研究方法的综合体。从 技术的层面来看, SEM 并非单指某一种特定的统计方法, 而是一套用以分析共变 结构的技术的整合。SEM 有时以协方差结构分析(covariance structure analysis )、 协方差结构模型(covariance structure modeling)等不同的名词的形式存在; 有时 则单指因素分析模型的分析, 以验证性因素分析来称呼之; 有时, 研究者虽然以 SEM 的分析软件来执行传统的路径分析, 进行因果模型 ( causal modeling ) 的探 究, 但以 SEM 的名义一一事实上这也是 SEM 的重要应用之一。这些分析技术具 有一些基本的共同特质(Kline, 1996, pp. 8-13 ), 具体说明如下。
SEM 分析最重要的一个特性, 是它必须建立在一定的理论基础之上。也就是 说, SEM 是一个用以检验某一先期提出的理论模型(priori theoretical model)的 适切性的统计技术。这也是 SEM 被视为一种验证性而非探索性统计方法的主要 原因。在 SEM 的分析过程中, 从变量内容的界定、变量关系的假设、参数的设 定、模型的安排与修正, 一直到应用分析软件来进行估计, 其间的每一步都必 须有清楚的理论概念或逻辑推理作为依据。从统计的原理来看, SEM 也必须同 时符合多项传统统计分析的基本假设(例如, 线性关系、正态性)以及 SEM 分 析软件所特有的假设要件,否则所获得的统计数据无法采信。 以因素分析为例, SEM 所使用的因素模型采取了相当严格的限制。对于潜在 变量的内容与性质, 研究者在测量之初就必须有非常明确的说明, 或有具体的理 论基础, 并已先期决定了相对应的观察变量的组成模型。分析的进行即在考验这 一先期提出的因素结构的适切性。除了在开发测量工具时可以利用这一程序来检 验其结构的有效性, 也用这一程序检验理论架构, 因此称为验证性因素分析。
不论分析的内容为何, 过去传统的统计方法多把变量视为 “真实” “具体” “可 观测” 的测量数据, 在分析过程中并不去处理测量过程所存在的问题, 也就是 说, “测量”与“统计” 是两个独立分离的程序。传统上, 如果变量所涉及的概 念如同 “智力” 或 “焦虑” 等不易界定的心理概念, 研究者为了获得可以分析的 数据, 会先行讨论测量的方法, 并以信度与效度的概念程序先行进行评估。一旦 通过评估的标准, 即对所获得的测量数据进行分析。
相对于传统的做法, SEM 是一套可以将“测量” 与“分析” 整合为一的计 量研究技术。关键在于 SEM 以潜在变量的形式, 利用对观察变量的模型化分析, 对不可直接观察的构念或概念加以估计, 不仅可以估计测量过程当中的误差, 也 可以评估测量的信度与效度(如因素效度), 甚至可以超越古典测量理论的一些 基本假设, 针对特定的测量现象(例如,误差的相关性)加以检测。另一方面, 在探讨变量之间关系的时候, 测量过程所产生的误差并没有被排除在外, 而是同 时包含在分析的过程当中, 使得测量信度的概念可以整合到路径分析等统计推论 的决策过程中。
SEM分析的核心概念是变量的协方差 ${ }^1$ ( covariance )。协方差是描述统计中的 一种离散量数, 利用方差(variance)的离均差和的数学原理, 计算出两个连续 变量配对分数的变异量, 用以反映两个变量的共同变异或相互关联程度。协方差 是一个非标准化的统计量数, 受到两个变量所使用的量尺或单位的影响, 数值可 能介于 $-\infty \sim+\infty$ 之间, 如果将协方差除以两个变量的标准差, 即可得出标准化 协方差(即 Pearson 相关系数 )。 在 SEM 当中, 协方差具有两种功能:第一种功能是描述性功能, 利用变量 之间的协方差矩阵, 我们可以观察出多个连续变量之间的关联情形; 第二种功能 是验证性功能, 用以反映理论模型所导出的协方差与实际观测得到的协方差的差 异。分析过程中最重要的数学程序即是计算导出协方差矩阵( $\Sigma$ matrix $)$ 。如果研 究者所设定的模型有问题, 或是数据估计过程导致 $\Sigma$ 矩阵无法导出, 整个 SEM 即无法完成。 除了协方差以外, SEM 也可以处理变量的集中趋势的分析与比较, 也就是平 均数的检验。传统上, 平均数检验是以 $t$ 检验或方差分析(ANOVA)进行的。由 于 SEM 可以对于截距进行估计, 使得 SEM 可以将平均数差异的比较纳人分析模 型, 同时若配合潜在变量的概念, SEM 更可以估计潜在变量平均数, 使应用范围 更为广泛。
由于 SEM 所处理的变量数目较多, 变量之间的关系较为复杂, 因此为了保 证不违反统计假设, 必须使用较大的样本量。同时, 样本规模的大小也车动着 SEM 分析的稳定性与各种指数的适用性。因此, 样本量的影响在 SEM 当中是一 个重要的议题。 与其他统计技术一样, SEM 分析所使用的样本规模当然是越大越好, 但是所 谓的最适合的规模会随着 SEM 模型的复杂度与分析的目的与种类而有相当大的变化。但是, 一般来说, 当样本量低于 100 时, 几乎所有的 SEM 分析都是不稳 定的。Breckler ( 1990) 曾针对人格与社会心理学领域的 72 个 SEM 实证研究进 行分析, 样本规模为 $40 \sim 8650$, 中数为 198 。有 $1 / 4$ 的研究的样本量小于 500 , 约 $20 \%$ 的研究样本的规模小于 100 。因此, 一般而言, 大于 200 的样本才可以称 得上是一个中型的样本。若要追求稳定的 SEM 分析结果, 低于 200 的样本量是 不鼓励的。
综观统计分析技术的内容, 可以概略分为平均数检验的方差分析与探讨线性 关系的回归分析两大范畴。事实上, 这两者并无本质差异, 前者可以被归为一般 线性模型 ( general linear model) 分析技术, 后者则是以变量间的线性关系为分析 的内容。随着计算机科技的发展, 以及分析软件功能的提升, 两种统计模型已经 可以互通, 合而为一。 一般线性模型的优点是可用数学方式来整合不同形态的变异来源, 可以不 断扩充研究者所欲探讨的变量的数目与影响方式。因此, 一般线性模型逐渐发 展出多种多变量统计的概念, 例如, 多变量方差分析 (multivariate analysis of variance 。而回归分析在处理变量的弹性与复杂度上的优势似乎有凌驾方差分析 之势, 但是方差分析由于简单清楚的数学原理与容易解释分析的特性, 也一直受 到研究者青睐 ${ }^1$ 。在 SEM 中, 虽然以变量的共变关系为主要内容, 但由于 SEM 模 型往往矢涉对大量变量的分析, 因此常借用一般线性模型分析技术来整合变量, 故 SEM 分析可以说是多种不同的统计分析程序的集合体。
虽然 SEM 囊括多种不同的统计技术于一身, 但是对于统计显著性的依赖 性远不及一般统计分析, 主要理由有三:第一, SEM 所处理的是整体模型的比 较, 因此所参考的指标不是以单一的参数为主, 而是整合性的系数, 所以个别检 验是否具有特定的统计显著性不是 SEM 分析的重点; 第二, SEM 发展出多种不同的统计评估指标, 使得使用者可以从不同的角度进行分析, 避免过度倚赖单一 指标; 第三, 由于 SEM 涉及大样本分析, 样本越大, SEM 分析的核心概念卡方 统计量的显著性越会受到相当的扭曲, 因此 SEM 的评估指数都特意避免碰触到 卡方检验的显著性检验。也因为这个原因, 在 SEM 分析当中, 较少讨论与统计 显著性决策有关的一类与二类错误议题, 显示了 SEM 技术的优势在于整体层次 ( macor-level ) 而非个别或微观层次( micro-level )。
参考资料