国内追踪数据分析方法研究与模型发展
Methodology study and model development for analyzing longitudinal data in China’s mainland
Received: 2021-09-24
追踪研究因其可以得到比横断研究更有说服力的变量关系论证, 在心理学等科学中具有重要地位。梳理国内以心理学为主的相关领域中追踪数据分析方法研究的发表现状、主要解决的研究问题和模型发展。追踪研究可以进行均值差异比较、分析多变量相互影响、描述总体发展趋势及差异和探究心理动态变化过程。近20年的研究热点和发展思路也集中在上述研究问题当中, 特别是总体发展趋势及差异、多变量相互影响、总体发展趋势与多变量相互影响的融合、追踪研究设计、缺失数据等议题上。最后, 比较国内外研究的差异, 并结合交叉学科对国内追踪研究未来发展做出展望。
关键词:
Longitudinal research could systematically capture the change of the target variable and thus is more convincing than cross-sectional research. It is popular in the fields of social sciences such as psychology, management, statistics, sociology, etc. The present study reviews the methodology study and model development for analyzing longitudinal data in China’s mainland. We aim to retrospect the methods used, the main research questions, and the popular research domains in longitudinal models.
The target publications ranged from 1st Jan. 2001 to 31st Dec. 2020 in CNKI core collections in the relative domains, and finally, 75 articles met our selecting criterion. Results also indicated that the research topic widely includes latent growth model, multilevel modeling, autoregression, cross-lagged model, missing data, etc. Among these research topics, latent growth model ranked as the first. Typically, the latent growth model and experience sampling method were favored in the field of psychology.
There are mainly four research questions retrieved from the publications. The first research question is to compare the mean difference, which is less popular. The second research question is to examine the reciprocal relationship between variables. It often uses the cross-lag model and the causal model to reveal the autoregressive and cross-lagged relationships within and between variables. The third research question is to depict growth trajectory with individual differences. It uses the latent growth model (LGM) and multilevel model (MLM) as the main methods to show a growth trajectory from the between-person perspective, as well as the individual difference included. The last one is to explore the dynamic changes. This research question does not focus on the general tendency of change but on the fluctuation between different time points. It usually uses autoregression with its extensions, MLM, time-varying effect model, and some newly developed models such as the dynamic structural equation model.
The recent 20 years' publication broadens the domains of longitudinal models, such as the extension of the shape and pattern of growth, the combination of latent class analysis leading to growth mixture model and latent transition analysis. The causal effect, longitudinal mediation and moderation models are also introduced to reveal the relationship between variables. Meanwhile, models depicting growth trajectory with individual differences combines with models examining reciprocal relationships, thus they were extended and integrated to random intercept cross-lagged model, latent variable autoregressive latent trajectory, as well as general cross lagged model. Furthermore, research design becomes more complex; the intensive longitudinal data was introduced and thus the models were according developed, such as MLM, time-varying effect model, dynamic structural equation model, group iterative multiple model estimation, and so forth. Particularly, missing data issue is also hot discussed in the field.
To summarize, methodology study for analyzing longitudinal data in China’s mainland has made fruitful development on the above topics and are in an advanced position all over the world. However, when comparing to the international scope, publications in China’s mainland are limited in narrow range. Many topics need to keep up with the international pace, which is a direction that Chinese scholars need to make efforts. Another future direction is to learn from other disciplines to promote the development of interdisciplinary.
Keywords:
本文引用格式
刘源, 都弘彦, 方杰, 温忠麟.
LIU Yuan, DU Hongyan, FANG Jie, WEN Zhonglin.
追踪研究(longitudinal study), 因其对同一个或同一批被试重复的观测, 可以得到比横断研究(cross-sectional study)更有说服力的变量关系论证, 在心理学、教育学、管理学等社会科学中具有重要地位。新世纪以来, 随着统计方法的发展, 运用结构方程模型、多水平模型、时间序列分析等技术分析追踪数据, 能关注更多的信息, 比如发展趋势及个体差异、影响个体差异的各水平的因素等。追踪数据的研究越来越细化, 所关注的问题也越来越深入。
首先, 检索了新世纪以来国内以心理学为主的相关领域的追踪研究方法文章, 概述了发文现状。然后根据这些发文内容, 总结了追踪研究的一般研究问题及其方法。在此基础上, 梳理了国内追踪研究目前的研究热点和发展思路。最后, 对比国外前沿的追踪研究, 提出了建议和发展方向。
1 国内追踪数据分析方法研究现状概述
进入中国知网(
国内发文现状在新世纪前10年快速增长(表1)。对照一下, 2000年以前发表的符合检索要求的只有1篇, 对追踪研究范式提出了建议, 但不涉及统计方法。对比不同学科, 心理学的相关研究最多, 其次是医学/药学。
表1 近20年不同领域发文数一览
| 学科 | 2001~ 2005 | 2006~ 2010 | 2011~ 2015 | 2016~ 2020 | 合计 |
|---|---|---|---|---|---|
| 心理学 | 2 | 3 | 12 | 10 | 27 |
| 管理学 | 0 | 1 | 2 | 4 | 7 |
| 教育学 | 0 | 1 | 0 | 2 | 3 |
| 经济学 | 1 | 0 | 1 | 1 | 3 |
| 社会学 | 1 | 0 | 1 | 0 | 2 |
| 统计学 | 0 | 5 | 2 | 0 | 7 |
| 医学/药学 | 1 | 5 | 3 | 9 | 18 |
| 综合性科学 | 1 | 6 | 1 | 0 | 8 |
| 总数 | 6 | 21 | 22 | 26 | 75 |
注: 综合性科学包括综合科技、综合社科。文章所属学科先后按期刊检索来源(CSSCI、北大核心)学科以及文献被知网收录所属专题(非核心期刊)进行划分。
从研究主题关键词来看, 潜增长模型最多(包括混合增长模型, 17.3%), 然后依次是经验取样(13.3%)、领域评述(13.3%)、多水平模型(12.0%)、缺失数据(10.7%)、因果模型(9.3%)、面板数据(5.3%)、自回归(5.3%), 剩余其他内容占13.1%。从学科领域来看, 心理学论文多涉及潜增长模型及其拓展模型(25.9%)、经验取样(18.5%), 除此之外还有学科领域的综述, 涉及到诸多模型(14.8%); 管理学更关注经验取样(57.1%); 医学更关注多水平模型和缺失数据(各22.2%)。可见每个学科都有其“惯用”的研究方法。
2 追踪数据设计的一般研究问题及其常用方法
2.1 均值差异比较
均值差异比较的追踪设计可以少到2次测量, 只要对同一批被试进行重复测量, 传统的配对样本t检验或重复测量方差分析就能解决。由于重复测量方差分析所给的主效应为多次测量的均值, 故若第一次测量为初始状态(并非干预后的效果)时, 此时的均值并非效应均值。可考虑排除第一次测量或采用协方差分析(将第一次测量作为协变量), 或将实验处理作为组间自变量进行混合设计方差分析(郑卫军, 何凡, 2020)。这些方法无法对违背方差假设(如球形假设)的数据进行分析, 也不能解决数据偏态、缺失值、等级数据等问题。
2.2 多变量相互影响
交叉滞后模型中的一个理论基础是自回归(autoregression), 可以分析所测变量随时间变化的稳定性。自回归方程为:
两个变量之间的自回归与交叉滞后关系包含两个方程:
同方程1, βxt和βyt为自回归系数; 而研究者对模型中最感兴趣的参数为交叉滞后系数γyt和γxt, 表示在控制了一个变量上一时间点的水平后, 另一个变量上一时间点的水平对该变量当前水平的预测效应。相互影响反映了其中任何一个变量的变化都会带来另一个变量的历时性变化(Usami et al., 2019)。此类方法发展得相对较早, 分析方法也容易借用结构方程模型(structural equation model, SEM)当中路径分析的思路来解决(分析步骤和方法可见: 刘文 等, 2015)。也可以借用到多水平模型的思路对面板数据建模(张旭, 石磊, 2010; 郑昱, 王二平, 2011)。
2.3 总体发展趋势及差异
第三类是描述总体的发展趋势, 以潜增长模型(latent growth model, LGM)和多水平模型(multilevel modeling, MLM, 又称多层/阶层线性模型, hierarchical linear model, HLM)为主要研究方法(刘红云, 孟庆茂, 2003)。
LGM以SEM的视角定义发展趋势(McArdle & Epstein, 1987), 使用带有均值结构的验证性因子分析模型, 通过定义载荷的大小来实现增长趋势的描述。以等距测量时间点的线性LGM为例, 定义两个潜变量: 截距η0i和线性斜率η1i, 测量部分和结构部分方程分别如下:
其中, 测量误差εit~N(0, σ2); 两个潜变量因子的均值分别为κ0和κ1, 是截距和斜率的均值; 两个
潜变量方差分别为var (ζ0)和var (ζ1), 且$\left[ \begin{matrix} {{\zeta }_{0i}} \\ {{\zeta }_{1i}} \\ \end{matrix} \right]\tilde{\ } N\left[ \left( \begin{matrix} 0 \\ 0 \\\end{matrix} \right),\left( \begin{matrix} {{\psi }_{00}} & {} \\ {{\psi }_{10}} & {{\psi }_{11}} \\ \end{matrix} \right) \right]$, 反映截距和斜率的个体差异以及两者关系。方程3中潜变量η0i的系数固定为1, η1i的系数(t-1)根据测量时间分别定义为0,1,2,…(分析步骤和方法可参考: 刘红云, 2005; 王孟成, 孟向阳, 2018。也见: 李丽霞 等, 2012; 宋秋月, 伍亚舟, 2017; 宋时歌, 2005; 林丰勋, 2005)。
MLM可以构建和潜增长模型相同的分析框架(Goldstein & Woodhouse, 2001), 只不过在测量部分建模不同, 将方程3改写成第一水平(测量水平)方程:
2.4 动态变化过程
最后一类研究收集的数据相对复杂, 测量的数据称为密集型追踪数据(intensive longitudinal data), 即按一定的程序在现实情境下对被试进行大量密集地测量(唐文清 等, 2020; 温忠麟 等, 2021)。这类方法主要关注目标变量随时间的动态变化过程, 对个体间与个体内的变化过程进行分离。通常采用多水平模型、时变效应模型(time- varying effect model)等方法。近年来也出现了将前几者综合起来的动态结构方程模型(dynamic structural equation model, DSEM)等方法(郑舒方 等, 2021; 详见第3节), 借鉴时间序列分析(time- series analysis)的相关建模过程。
时变效应模型(Shiyko et al., 2012)表示为:
其中, xit是随时间变化的自变量, η0(t)是截距, 表示xit = 0、在时间t时, 结果变量的均值; η1(t)是斜率, 表示在时间t时, xit与yit之间关系的强度和方向。这里η0(t)和η1(t)是时间t的函数, 可定义为任意的函数关系(如高次、指数、周期等), 其中, η0(t)表示某心理特质的平均水平随时间推移呈动态变化, η1(t)表示xit对yit的效应随时间推移呈动态变化(唐文清 等, 2020)。
3 国内追踪数据分析方法的发展
以上的几类研究方法各自在其主要模型上做增删和拓展, 可以解决很多复杂的研究问题。接下来将参考第二节中的研究问题及前人对新世纪追踪研究方法的总结(温忠麟 等, 2021), 梳理国内的追踪研究目前的研究热点和发展思路。
3.1 总体发展趋势及差异模型的发展
3.1.1 潜增长模型的拓展
不难发现, 新世纪的追踪研究文章主要集中在第三类, 即“总体发展趋势及差异”为主导的研究问题。被引次数达到30次以上的8篇论文均涉及该研究问题。此类研究也得益于SEM技术的发展与应用, 以及相关软件(如Mplus, R, Amos等)的普及。
目前已有专著和文献论述LGM的方法和应用, 包含LGM的建模、增长形态的变化(通过对时间系数灵活多变的定义而达到二次型、不定义曲线类型/自由时间参数估计、单因子模型等)、不连续的增长趋势(如多阶段增长模型, piecewise growth model)、多元LGM (关注多指标、多组比较、高阶LGM)、包含时变(time-varying)和非时变(time-invariant)协变量、贝叶斯算法等议题(刘红云, 2005; 刘源 等, 2013; 王婧 等, 2017; 王孟成, 毕向阳, 2018; 温忠麟, 刘红云, 2020; 张沥今 等, 2019)。基于SEM, 能比较容易地定义LGM, 且测量次数仅为3次就能达到线性模型识别的要求。只要是有SEM基础的研究者, 推广到追踪研究当中, LGM是一个很好的选择。
3.1.2 潜类别分析与潜增长模型的融合
潜类别分析主要关注类别差异。它与潜增长模型融合之后关注发展趋势的异质性(heterogeneity)问题, 即“发展的类别”, 研究焦点包括增长混合模型、潜类别增长模型和多阶段混合增长模型。
其中, p (ci = k)表示被试i属于潜类别k的概率, 根据观测指标上的反应模型即不同的联合概率来进行参数估计。在增长混合模型当中, 可以限定每个类别的变异为0, 即不考虑组内差异(方程8中
3.1.3 潜在转变分析
除了对发展趋势进行分类, 还可以关注潜类别随时间的发展, 个体归属的变化过程, 即“类别的发展/变化”, 包括潜在转变分析和随机截距潜在转变分析。
潜在转变分析(latent transition analysis, 或潜在转移/转换分析)是先根据潜类别分析, 在不同时间点上同时对样本分类, 再关注分类结果随时间变化的不同, 或在何条件下(协变量)哪些个体会“转移”到另一个类别(刘源, 刘红云, 2015; 王碧瑶 等, 2015)。可以粗略地看成是类别变量的自回归分析。近年来, 潜在转变分析模型也拓展出包含随机截距因子的随机截距潜在转变分析(random intercept latent transition analysis, Muthén & Asparouhov, 2020; 温聪聪, 朱红, 2021)。它将个体间变异与个体内变异分离, 避免了高估保留在初始类别的概率。
3.2 多变量相互影响的模型发展
3.2.1 因果模型
除了前文提到的因果模型的哲学探讨和研究设计之外, 也有研究者提出了采用倾向分数(propensity score)、工具变量(instrumental variable)和回归间断点(regression discontinuity)等统计方法对因果模型进行检验(辛涛, 李峰, 2009)。还有研究使用了多次测量的面板数据, 引入了动态面板数据模型, 借鉴了时间序列分析的思路, 在交叉滞后模型基础上探讨非平稳、非线性、异质性、随机系数等概念(白仲林, 2010; 龙莹, 张世银, 2010; 皮天雷, 2009; 邢进良, 2007)。在自回归分析中, 也引入了折扣最小二乘估计(张俊 等, 2014)。
3.2.2 追踪数据的中介效应
基于MLM的中介分析, 即多水平中介模型, 考虑多水平下自变量、中介变量和因变量三者的同时效应。将重复测量看成第一水平, 个体变量看成第二水平。使用的同时效应模型为:
其中, mit为个体i在时间t的中介变量, xit和yit分别为相应的自变量和因变量, μmi和μyi为截距项(中心化模型可忽略之), 系数ai为自变量对中介变量的效应, 系数bi为中介变量对因变量的效应, 系数
基于滞后效应模型的中介分析, 考虑单一水平下自变量对中介变量、中介变量对因变量的滞后影响。方程如下:
其中βx、βm和βy分别表示自变量、中介变量和因变量的自回归系数。方程10可以有多个变式, 例如可根据实际情况定义一阶或二阶滞后; 也可将交叉滞后模型当中的参数看成是随机效应。
将交叉滞后模型与MLM的结合则可以产生多水平自回归中介模型(multilevel autoregressive mediation model), 即将方程10当中的系数和截距项均加上下角标i, 考虑个体差异(第二水平变异)。还可以考虑连续时间模型和多水平时变效应中介模型(详见: 方杰 等, 2021)。
基于LGM的中介模型中, 自变量、中介变量和因变量各自建立LGM, 分别检验三者在截距因子与斜率因子上的中介关系。后者更受到关注, 且一般在单独做斜率因子的中介模型时需要控制因变量的初始状态(方杰 等, 2021)。
3.2.3 追踪数据的调节效应
此外, MLM建模过程中可以直接检验调节效应, 即构建跨水平调节(交互)效应。如2.3节中介绍的, MLM在纵向模型中, 方程4中增加个体水平自变量, 如方程11所示。
其中, 系数κ11表示的就是个体水平变量xi和时间tit的调节效应(将方程11带入方程5即可得到交互项), 表示随时间的变化, xi对yit影响的变化。
3.3 总体发展趋势与多变量相互影响的融合
近年来, 交叉滞后模型在变异分解上更为深入, 可以借用SEM框架, 分离个体间变异与个体内变异, 衍生出来一系列模型。在历时性相互影响过程中, 如果包含非时变成分, 即跨时稳定的特质, 则可以通过抽取一个随机截距因子, 排除“个体间”的稳定变异, 在剩余的“个体内”变异中考察自回归和交叉滞后的影响。
可观察到方程12比方程2多抽取了随机截距因子ηyi和ηxi, 表示数次测量之间的公共因子, 且设定系数为1; 每个个体在数次测量之间仍继续考虑自回归和交叉滞后影响(yi(t-1)和xi(t-1)的影响)。加入随机截距因子之后, 通过估计因子方差来表示非时变的稳定特质(个体间变异); 此时, 自回归系数βxt和βyt表示跨时稳定性(个体内变异), 称为个体内滞留参数(within-person carry-over; Hamaker et al., 2015)。如果将RI-CLM的ηyi和ηxi的系数限定成0时, 就成为一个标准交叉滞后模型, 表示没有跨时间的稳定特质。分离出个体间变异和个体内变异, 将稳定的发展特质定位到个体间, 而将波动与变化定位到个体内, 更精确地估计不同水平的变量间的影响。
如果进一步将RI-CLM中的随机截距因子看成是一个只包含截距因子的LGM, 则容易将斜率因子也纳入到模型中(即在方程12中继续增加潜变量因子η, 同方程3)。甚至还能考虑测量误差(或测量信度), 在潜变量上建立自回归和交叉滞后影响。这些模型之间具有嵌套关系, 可以在统一框架中进行限定或拓展而相互转换(方俊燕 等, 印刷中; 刘源, 2021)。比如潜变量自回归潜增长模型(latent variable autoregressive latent trajectory)是在交叉滞后模型的基础上添加潜增长因子和测量误差; 因子结构化潜增长模型(factor latent curve model with structured reciprocals)则是在潜增长模型的基础上增加交叉滞后参数, 二者建模的最终形式得到统一(刘源, 2021)。
其中,
3.4 追踪研究设计的发展
3.4.1 加速追踪设计
加速追踪设计主要关注群组效应(cohort effect, 也叫朋辈效应、群组序列设计、混合纵向设计等), 是选择相邻的多个群组同时进行的短期追踪研究, 获得的是有重叠的群组数据。加速设计同时纳入了群组效应和年龄效应, 比单群组的追踪包含更多的信息。一般采用LGM或MLM分析加速追踪设计数据(唐文清, 张敏强 等, 2014)。
利用SEM多组比较方法, 即分别建立不同群组的LGM, 约束不同群组的相同年龄在斜率因子的时间载荷上相等, 进一步可以释放约束模型中的某些条件以检验群组差异。另一个思路是采用条件MLM, 即构建测量水平嵌套于个体水平的两水平模型, 再将群组变量作为第二水平的协变量构建条件模型。若第二水平的条件模型和无条件模型无统计差异, 则说明具有群组一致性。二者的建模思路殊途同归: 多组比较侧重考察组间差异(或组间一致性), 其实是一种调节效应的建模; MLM在第二水平加入协变量, 其对随机斜率的影响本身就是跨水平交互作用。核心都在于考察以年龄效应建立的发展趋势模型是否有群组差异。
3.4.2 密集追踪法
密集追踪法是对经验取样、生态瞬时评估、即时数据获取、日记法等方法的统称, 是按一定的程序收集被试在日常生活中特定时刻的数据, 获得几十甚至上百个测量点的追踪数据收集方法(唐文清 等, 2020)。一般地, 如果观测点超过10个, 间隔时间更短(数天或数小时), 则更应采用此类研究范式(Castro-Alvarez et al., 2022; McNeish & Hamaker, 2020; 郑舒方 等, 2021)。此类数据收集方法所探讨的研究问题重点是“个体内的波动”, 因而在分析时不关心整体变化趋势。所以在分析之前可以做“去趋势”处理; 如果关心趋势, 也可以在模型中增加描述趋势的部分。对密集型追踪数据的分析方法, 主要包含基于整体水平的MLM、时变效应模型、动态结构方程模型(Asparouhov et al., 2018; Asparouhov & Muthén, 2020), 以及基于个体水平的向量自回归模型(vector autoregressive model; Chatfield, 2003; 樊重俊, 2010)、组迭代多模型估计(group iterative multiple model estimation, GIMME; Gates & Molenaar, 2012)。在心理学或相关社会科学研究当中, 经验取样的数据更加适合研究动态过程; 但目前的状况看来, 经验取样数据多以MLM为方法, 其核心关注的仍然并非“波动”, 而是“趋势” (如: 李文静 等, 2008), 关注波动更合理的是时变效应模型和DSEM。
动态结构方程模型(DSEM)结合了自回归模型、MLM以及潜变量模型, 可以同时处理时变效应及测量误差的问题(郑舒方 等, 2021)。DSEM将个体i在时间t的测量值yit的变异分解为三个部分: 个体i的变异、时间t的变异(均为第二水平)以及个体i在时间t的波动变化(第一水平), 用
以上的几类方法假设研究对象是整体的、同质化的群体, 个体间存在相同的模型路径, 不同被试之间可能只是效应大小有所不同。而基于个体的方法, 主要对单个个体的一系列变量在不同时间、不同情境下的关系进行分析, 比如向量自回归模型。另有针对个体模型, 结合群体共享信息的优势, 提出的组迭代多模型估计方法。该方法将自回归和交叉滞后效应分解为个体效应和群体效应两个部分, 在对数据预处理之后, 同时包含了群体模型和个体模型的建立两个阶段。可以在R和LISREL上实现(郑舒方 等, 2021)。
3.5 追踪研究的缺失数据处理
由于心理学等社会科学的特殊性, 以人为研究对象的数据收集过程中, 往往会产生大量的缺失数据。近10年的文献中, 有8篇关于缺失数据的研究。常见的3种缺失机制中, 完全随机缺失(missing completely at random)几乎可以使用所有的传统插补、基于模型的极大似然估计和多重插补; 随机缺失(missing at random)和非随机缺失(missing not at random)可以采用基于模型的极大似然估计、多重插补和贝叶斯估计等方法得到较为稳健可靠的处理结果(鲍晓蕾 等, 2016; 陈丽嫦 等, 2020a; 申宁宁 等, 2015; 叶素静 等, 2014)。其中, 非随机缺失的主要问题是在实证当中不能被检测出来, 但是在追踪研究中又可能会遇到。研究焦点集中于采用一种最优方法使得未被检测的缺失机制在进行插补或估计之后偏差最小(陈楠, 刘红云, 2015)。
3.6 其他议题
4 比较与展望
4.1 国内外研究的比较
进入新世纪, 国内追踪研究呈现出积极的发展态势。针对不同的研究问题均有较为完备的综述和教材介绍基本模型, 在基本模型基础上也深入探讨了模型的拓展与整合、算法的优化、参数估计的影响因素、不同模型的适用条件等议题。这些议题的探索和突破在国际同行当中都是处于先进地位的。从研究问题来看, 国内外的问题焦点保持一致; 然而, 就某一方面问题, 国内的追踪研究发文主题和方法使用上相对单一和集中。
4.1.1 国外研究中模型的变式
在发展趋势的研究问题当中, 发展形态的复杂化是此类模型拓展的一个焦点。目前, 国内研究大多集中在多阶段增长模型, 探讨模型估计的影响因素(刘源 等, 2013; 王婧 等, 2017)。但是, 多阶段增长模型在借用SEM框架定义时间的时候有先天的理论不足。该模型定义时间参数为固定参数, 即转折点已知, 是一个事先过程; 在没有理论假设的情况下无法对转折点进行估计。国外研究进一步深入, 利用随机系数模型、SEM数理转换或贝叶斯方法, 实现了未知转折点的估计(Harring et al., 2006; Kohli et al., 2015)、多个未知转折点的估计(Liu et al., 2018)、转折点随机效应的估计(Harring et al., 2021)等问题。
此外, 国外研究还会用到特殊的发展形态, 这些发展形态在国内鲜有文献提及。包括指数效应、高阶或幂分布模型、尖点突变模型(cusp catastrophe model, 利用高次方的函数关系, 关注断点和突变的发生及其多维影响因素)、惩罚样条模型(penalized spline model, 可对非连续形态进行平滑处理)等主题(Chow et al., 2015; Estrada & Ferrer, 2019; Setodji et al., 2019; Suk et al., 2019)。同时, LGM中时间参数的“重参数化” (reparameterization)可以将LGM当中的类似于“测量次数”的时间参数重新公式化, 使其具有实际意义而不是单纯仅有统计意义(Johnson & Hancock, 2019; Preacher & Hancock, 2015)。在数据类型方面, 也有国外研究提出了二分数据、计数数据发展趋势的分析方法(Peugh et al., 2020; Wang et al., 2016)。
在将潜增长模型与交叉滞后模型融合的过程中, 国外研究拓展的模型非常丰富。例如, 因子交叉滞后模型(factor cross-lagged model)在交叉滞后模型上考虑了每个指标的测量误差(或测量信度), 进一步将其与随机截距交叉滞后模型结合得到特质-状态-误差模型(trait-state-error; Kenny & Zautra, 2001)。特质-状态-误差模型分解出测量误差变异后, 真分数的变异继续被分解成两个部分: 一部分是稳定特质的变异, 另一部分是状态之间的相互影响。在此模型基础上进一步引入潜变量自回归潜增长模型(latent variable autoregressive latent trajectory, Bianconcini & Bollen, 2018), 即将每个测量时间点的特质用潜变量来表示, 考虑多个测量指标的问题。除此之外, 潜变化分数模型(latent change score model)也是同一时期衍生出来的模型(McArdle & Hamagami, 2001), 用两次测量之间的差异分数作为指标构造增长因子。在统计上, 潜变化分数模型可以粗略地看成是因子交叉滞后模型的一般形式(Usami et al., 2016); 而上述提及的模型大多可以通过约束或释放一些参数而得到另一个模型, 具备嵌套关系(Usami et al., 2019)。
4.1.2 国外研究中模型的应用
国外追踪数据分析方法研究的另一个特点是会刊登一些较为“接地气”的文章。有一些教学类文章会有发表——像并不是有跨时代贡献的, 仅仅是一些模型拓展、不同模型的融合、如何实现各种软件包的操作(如R包, Mplus代码)等。这类研究对于大多数应用研究者而言才是能“看懂”、可以参考、高被引的文章, 特别是一些软件包或代码的共享。国内方法类文章和研究者在撰写文章的时候, 可以借鉴一部分教学类文章的文书形式——方法的来龙去脉写清楚, 但又比教材更精炼、研究问题更新颖, 并共享代码。国际前沿方法的引进需要教学类文章为应用研究者提供指导, 拉通国际话语, 提升国内研究平台。
4.2 国内研究的交叉学科思路
随着国内心理学学科的发展, 不同的领域分支采用了不同范式收集数据。除了传统诸如实验、行为、问卷等研究范式, 经验取样的丰富化(如长期追踪的电生理指标)、认知神经科学当中的纵向数据(如脑电数据、眼动数据、任务态脑影像数据)、教育当中的过程性数据(如作答反应时、按键次数、停留时间)均能收集到大量追踪数据。对数据挖掘的不充分, 使得收集到的庞大数据资料流于一般。研究者可以多采用(动态)结构方程模型, 包括采用时间序列分析的建模思路增强数据挖掘的充分性, 提出更合理的数据解读范式。
不同的学科也有“青睐的”统计模型。从本文梳理的国内发文现状来看, 心理学论文常用潜增长模型建模, 统计学、经济学、管理学则常用自回归、经验取样等方法。由于心理学研究的追踪次数较少, 2~3次的研究占绝大多数(75%, 参见: 唐文清, 方杰 等, 2014), 不常用密集型追踪数据的方法来建模。纵观国际, JCR心理学领域当中有专门的“数理心理学”这个分支(Psychology, Mathematical), 其下有13本杂志均被2个或2个以上领域的索引收录, 每一本杂志都交叉于数学、教育学、社会学、统计学、生命科学等其他门类。其他学科的追踪研究范式也可以借鉴融合到心理学研究中, 比如生命科学中复杂的生长形态(灾变模型、弧形、分叉等)、教育中的过程性数据(机器学习、计算机自适应干预设计数据)、信息技术中的复杂文本数据(社交网络大数据、文本分析)等。和不同的学科进行交叉, 扩大心理学研究范式的边界, 这也是国内追踪研究可以发展的一个方向。
值得一提的是, 本文对研究问题的分类是根据前人研究的总结和拓展(刘红云, 孟庆茂, 2003; 唐文清 等, 2020), 并非唯一的分类方法。实际上, 带有交叉滞后效应的模型可以归类到“多变量相互影响”; 而带有自回归效应的模型即可看成是“动态变化过程”。随着研究问题的深入和统计模型的发展, 不同的研究问题相互交叉, 统计模型也相互融合。例如, 随机截距交叉滞后模型解决的是同时考虑特质与状态的问题, 将多变量相互影响和总体发展趋势两个研究问题结合; DSEM不仅解决了个体波动, 同时也纳入个体变异和时间变异, 其实是融合了动态变化过程、多变量相互影响和个体差异的研究问题。未来的研究方法也会继续交叉融合, 不断突破已有的边界, 推动学科发展。
一个学科的良性发展也离不开基础数理研究方法的进化与更新。相信更优、更快、更精的追踪研究方法和模型能推动心理学和其他相关领域的发展, 真正从“描述和相关”研究中走出来, 朝向“解释和预测”的目标而为人类造福。
参考文献
交叉滞后路径分析在变量因果时序关系研究中的应用
Dynamic structural equation models
DOI:10.1080/10705511.2017.1406803 URL [本文引用: 1]
Comparison of models for the analysis of intensive longitudinal data
DOI:10.1080/10705511.2019.1626733 URL [本文引用: 2]
The latent variable- autoregressive latent trajectory model: A general framework for longitudinal data analysis
DOI:10.1080/10705511.2018.1426467 URL [本文引用: 1]
Dyadic analysis and the reciprocal one-with-many model: Extending the study of interpersonal processes with intensive longitudinal data
DOI:10.1037/met0000380 URL [本文引用: 1]
Using structural equation modeling to study traits and states in intensive longitudinal data
DOI:10.1037/met0000393 URL [本文引用: 1]
The cusp catastrophe model as cross-sectional and longitudinal mixture structural equation models
DOI:10.1037/a0038962 URL [本文引用: 1]
Studying developmental processes in accelerated cohort-sequential designs with discrete- and continuous-time latent change score models
DOI:10.1037/met0000215 URL [本文引用: 1]
Latent variable GIMME using model implied instrumental variables (MIIVs)
DOI:10.1037/met0000229 URL [本文引用: 1]
Group search algorithm recovers effective connectivity maps for individuals in homogeneous and heterogeneous samples
DOI:10.1016/j.neuroimage.2012.06.026 URL [本文引用: 1]
Selection modeling versus mixture modeling with nonignorable nonresponse
Modelling repeated measurements
A critique of the cross-lagged panel model
DOI:10.1037/a0038889
PMID:25822208
[本文引用: 3]
The cross-lagged panel model (CLPM) is believed by many to overcome the problems associated with the use of cross-lagged correlations as a way to study causal influences in longitudinal panel data. The current article, however, shows that if stability of constructs is to some extent of a trait-like, time-invariant nature, the autoregressive relationships of the CLPM fail to adequately account for this. As a result, the lagged parameters that are obtained with the CLPM do not represent the actual within-person relationships over time, and this may lead to erroneous conclusions regarding the presence, predominance, and sign of causal influences. In this article we present an alternative model that separates the within-person process from stable between-person differences through the inclusion of random intercepts, and we discuss how this model is related to existing structural equation models that include cross-lagged relationships. We derive the analytical relationship between the cross-lagged parameters from the CLPM and the alternative model, and use simulations to demonstrate the spurious results that may arise when using the CLPM to analyze data that include stable, trait-like individual differences. We also present a modeling strategy to avoid this pitfall and illustrate this using an empirical data set. The implications for both existing and future cross-lagged panel research are discussed.(c) 2015 APA, all rights reserved).
Fitting partially nonlinear random coefficient models as SEMs
DOI:10.1207/s15327906mbr4104_7 URL [本文引用: 1]
Piecewise latent growth models: Beyond modeling linear- linear processes
DOI:10.3758/s13428-020-01420-5 URL [本文引用: 1]
Time to criterion latent growth models
DOI:10.1037/met0000214
PMID:30998039
[本文引用: 1]
Latent growth models, a special class of longitudinal models within the broader structural equation modeling (SEM) domain, provide researchers a framework for investigating questions about change over time; yet rarely is time itself modeled as a focal parameter of interest. In the current article, rather than treating time purely as an index of measurement occasions, the proposed Time to Criterion (T2C) model draws from Preacher and Hancock's (2012) latent growth model reparameterization guidelines to model individual variability (i.e., to treat as a random effect) in one's time to achieve a criterion level of a given outcome. As such, the T2C model also allows researchers to model predictors and distal outcomes of time, as well as benefiting more generally from the flexibility afforded by being embedded within the broader SEM framework to accommodate such real-world data issues as missingness, complex error structures, nonnormality, and nested data. In this study we derive T2C from the linear latent growth model and discuss model assumptions and interpretation. By illustrating the model using real data, we demonstrate both its utility for applied research and its implementation in conventional SEM software. We also discuss and illustrate an extension of the model for nonlinear growth. Overall, the T2C model presents a novel and interpretable growth parameterization for further understanding processes of change. (PsycINFO Database Record (c) 2019 APA, all rights reserved).
A general method for analysis of covariance structures
DOI:10.1093/biomet/57.2.239 URL [本文引用: 1]
Cross-lagged panel correlation: Practice and promise
DOI:10.1037/0021-9010.64.4.372 URL [本文引用: 1]
Trait-state models for longitudinal data
Fitting a linear-linear piecewise growth mixture model with unknown knots: A comparison of two common approaches to inference
DOI:10.1037/met0000034 URL [本文引用: 1]
Piecewise growth mixture model with more than one unknown knot: An application in reading development
Latent growth curves within developmental structural equation models
This report uses structural equation modeling to combine traditional ideas from repeated-measures ANOVA with some traditional ideas from longitudinal factor analysis. A longitudinal model that includes correlations, variances, and means is described as a latent growth curve model (LGM). When merged with repeated-measures data, this technique permits the estimation of parameters representing both individual and group dynamics. The statistical basis of this model allows hypothesis testing of various developmental ideas, including models of alternative dynamic functions and models of the sources of individual differences in these functions. Aspects of these latent growth models are illustrated with a set of longitudinal WISC data from young children and by using the LISREL V computer program.
Latent difference score structural models for linear dynamic analyses with incomplete longitudinal data
A primer on two-level dynamic structural equation models for intensive longitudinal data in Mplus
DOI:10.1037/met0000250 URL [本文引用: 1]
SMART longitudinal analysis: A tutorial for using repeated outcome measures from SMART studies to compare adaptive interventions
DOI:10.1037/met0000219
PMID:31318231
[本文引用: 1]
In recent years, there has been increased interest in the development of adaptive interventions across various domains of health and psychological research. An adaptive intervention is a protocolized sequence of individualized treatments that seeks to address the unique and changing needs of individuals as they progress through an intervention program. The sequential, multiple assignment, randomized trial (SMART) is an experimental study design that can be used to build the empirical basis for the construction of effective adaptive interventions. A SMART involves multiple stages of randomizations; each stage of randomization is designed to address scientific questions concerning the best intervention option to employ at that point in the intervention. Several adaptive interventions are embedded in a SMART by design; many SMARTs are motivated by scientific questions that concern the comparison of these embedded adaptive interventions. Until recently, analysis methods available for the comparison of adaptive interventions were limited to end-of-study outcomes. The current article provides an accessible and comprehensive tutorial to a new methodology for using repeated outcome data from SMART studies to compare adaptive interventions. We discuss how existing methods for comparing adaptive interventions in terms of end-of-study outcome data from a SMART can be extended for use with longitudinal outcome data. We also highlight the scientific utility of using longitudinal data from a SMART to compare adaptive interventions. A SMART study aiming to develop an adaptive intervention to engage alcohol- and cocaine-dependent individuals in treatment is used to demonstrate the application of this new methodology. (PsycINFO Database Record (c) 2020 APA, all rights reserved).
Deciding on the number of classes in latent class analysis and growth mixture modeling: A Monte Carlo simulation study
DOI:10.1080/10705510701575396 URL [本文引用: 1]
Analyzing discontinuities in longitudinal count data: A multilevel generalized linear mixed model
DOI:10.1037/met0000347 URL [本文引用: 1]
Meaningful aspects of change as novel random coefficients: A general method for reparameterizing longitudinal models
DOI:10.1037/met0000028 URL [本文引用: 1]
An exponential effect persistence model for intensive longitudinal data
DOI:10.1037/met0000211
PMID:30998040
[本文引用: 1]
We develop an effect persistence model for intensive longitudinal data under a general assumption of an exponential loss of association between exposure and outcome over time. The working model proposed may be useful for understanding the complexity of phenomena for which subjects can be repeatedly exposed to an intervention or a naturally occurring event, while, the effect of any one exposure is expected to diminish over time. Under the main assumption, we specify a semilinear model with extensions to generalized linear models. These methods are motivated by, and applied to, data from a study of adolescent exposure to prosmoking advertisement in which the impact of prosmoking media exposure on young adults' susceptibility to smoking is assessed along with the decay of the effect over time. We investigate the performance of the proposed method when the model assumptions are correctly specified or not. (PsycINFO Database Record (c) 2019 APA, all rights reserved).
Using the time-varying effect model (TVEM) to examine dynamic associations between negative affect and self confidence on smoking urges: Differences between successful quitters and relapsers
DOI:10.1007/s11121-011-0264-z URL [本文引用: 1]
Nonlinear growth curve modeling using penalized spline models: A gentle introduction
DOI:10.1037/met0000193 URL [本文引用: 1]
Inferring longitudinal relationships between variables: Model selection between the latent change score and autoregressive cross- lagged factor models
DOI:10.1080/10705511.2015.1066680 URL [本文引用: 1]
A unified framework of longitudinal models to examine reciprocal relations
DOI:10.1037/met0000210 URL [本文引用: 2]
A second-order longitudinal model for binary outcomes: Item response theory versus structural equation modeling
DOI:10.1080/10705511.2015.1096744 URL [本文引用: 1]
From data to causes I: Building a general cross-lagged panel model (GCLM)
DOI:10.1177/1094428119847278 URL [本文引用: 1]
/
| 〈 |
|
〉 |
