赵陵波1, 赖丽足2, 林羽中1, 赵春晓2, 任志洪,2

1. 福州大学人文社会科学学院, 福州 350108

2. 青少年网络心理与行为教育部重点实验室,华中师范大学心理学院, 湖北省人的发展与心理健康重点实验室, 武汉 430079

The effect and moderators of school-based anti-bullying programs: Meta-analysis and GRADE evidence

ZHAO Lingbo1, LAI Lizu2, LIN Yuzhong1, ZHAO Chunxiao2, REN Zhihong,2

1. School of Humanities and Social Sciences, Fuzhou University, Fuzhou 350108, China

2. Key Laboratory of Adolescent Cyberpsychology and Behavior (CCNU), Ministry of Education; School of Psychology, Central China Normal University; Key Laboratory of Human Development and Mental Health of Hubei Province, Wuhan 430079, China

通过文献检索和筛选, 选取了43个校园欺凌的干预研究, 使用CMA 3.0分析干预效果及影响因素, 并使用GRADE系统对所有结局指标的证据质量进行评估。结果显示, 针对欺凌者的干预项目具有中等效果量(g = 0.57, p < 0.05); 针对欺凌受害者的干预项目使得受害者的受欺凌行为减少(g = 0.42, p < 0.05), 心理健康得到改善(g = 0.40, p < 0.01); 针对所有学生的欺凌干预项目对其欺凌行为的效果g =0.17 (p < 0.001), 对其受欺凌行为效果g = 0.19 (p < 0.001), 可能存在出版偏差; 学生态度改变的效果g = 0.40 (p < 0.01)。除了态度改变的证据质量为中等, 其他结局指标的证据都为低或者极低质量。对于所有学生干预项目, 干预周期小于1学期的效果量大于干预周期大于1学期的效果量, 教育干预项目效果量小于系统干预效果量, 非随机研究效果量大于随机对照研究。直接针对欺凌者或者欺凌受害者的干预效果量中等, 但是样本量少, 需要进一步的研究证据支持。针对所有学生的欺凌干预项目虽然效果量低, 但是仍具有实践意义, 其效果量受到干预周期和干预特征的影响。

关键词: 校园反欺凌; 干预效果; 元分析; GRADE


School bullying has become a public health issue in the past several decades which caused physical and psychological harm on bullies, victims as well as bystanders. Therefore, a series of anti-bullying programs were designed to reduce the bullying or the harmfulness of bullying, but the effectiveness of these programs was inconsistent. Forty-three pre-post randomized controlled trail studies were selected to examine the effect of school-based anti-bullying programs. The evidence quality was screened under the GRADE protocol. Results suggested a significant effect for anti-bullying programs which targets bullies (g = 0.57, p< 0.05), while those who target victims, victimization decreased (g = 0.40, p< 0.05), and overall metal health improved (g = 0.40, p< 0.01). The pooled effect size indicated that school-based anti-bullying programs have a small effect on bullying and victimization (g = 0.17, p< 0.001) and influenced by publication bias. Attitude changed moderately (g = 0.19, p< 0.001). The evidence of attitude change was moderate, other outcome variables have a very low or low evidence quality according to GRADE protocol. For the programs targeting universal students, programs which was less than one semester performed better, and the global intervention showed more effective than education. The effect size of anti-bullying programs targeting bullies or victims was moderate, but more research is needed. Though school-based anti-bullying programs which target universal students have a relatively small effect size, however, they are practical for real-world applications. The dose of intervention and the feature of programs have influence on the effect of anti-bullying programs.

Keywords: school anti-bullying; intervention effect; meta-analysis; GRADE

赵陵波, 赖丽足, 林羽中, 赵春晓, 任志洪. 校园反欺凌项目干预效果及影响因素:元分析和GRADE证据质量. 心理科学进展, 2018, 26(12): 2113-2128

ZHAO Lingbo, LAI Lizu, LIN Yuzhong, ZHAO Chunxiao, REN Zhihong. The effect and moderators of school-based anti-bullying programs: Meta-analysis and GRADE evidence. Advances in Psychological Science, 2018, 26(12): 2113-2128

1 背景

校园欺凌可定义为一个或者多个学生对同伴进行身体、心理的反复迫害或者道德攻击, 主要有以下三个特征:欺凌者和受害者力量上的不均等; 攻击行为是故意且敌意的; 欺凌反复发生(Olweus, 1994a)。欺凌的形式不仅仅包括直接的暴力行为, 也包含间接的攻击行为; 内容包括身体欺凌(例如踢打等身体暴力行为), 口头欺凌(例如嘲笑, 取侮辱性的绰号), 关系欺凌(例如散播谣言, 伤害他人名誉), 损坏受害者所有物。并且随着网络技术的发展, 网络欺凌成为新的欺凌渠道, 其包括电子邮件、短信、视频等(Kowalski, Giumetti, Schroeder, & Lattanner, 2014)。

欺凌形式、渠道的多样性提升了欺凌行为的发生率。一项综合了全球80项报告青少年欺凌行为发生率研究的元分析发现:传统的欺凌现象发生率可达到34.5%, 网络欺凌率为15.5% (Modecki, Minchin, Harbaugh, Guerra, & Runions, 2014)。一项整合了大陆、台湾、香港和澳门两岸三地的调查研究发现, 青少年欺凌报告率最高达到68%, 受欺凌报告率最高达到66% (Chan & Wong, 2015)。欺凌行为会严重影响欺凌者、欺凌受害者的身心健康和发展。研究显示, 欺凌者更容易有消极的或者反社会行为(例如逃学, 犯罪, 物质滥用) (Havik, Bru, & Ertesvåg, 2015; McCuddy & Esbensen, 2017; Ttofi, Farrington, Lösel, Crago, & Theodorakis, 2016)。而欺凌受害者与低自尊、低自我价值感正相关, 更容易有焦虑、抑郁、自杀意念等心理问题(Kelly et al., 2015)。因此校园欺凌现象不仅普遍, 并且造成严重的危害, 鉴于此, 欺凌的干预和预防逐渐引起政府、教育部门和公众的重视。

自1983年, Olweus在挪威设计了第一个大规模的校园欺凌干预项目起, 之后的数个效果评估显示校园欺凌/受害现象下降了21%~50%左右(Olweus, 1994b, 2005)。随后, 越来越多研究者根据不同理论设计了校园欺凌干预项目, 并将之应用于中小学学校中。这些干预项目涉及个体层面、学校层面、家庭层面, 乃至社区和社会层面(Farrington, Gaffney, Lösel, & Ttofi, 2016)。在个体层面, 针对学生对欺凌的知识、态度进行教育; 在学校层面, 制定一定的校规, 或者组建委员会处理欺凌事件; 在家庭层面, 增加家长对欺凌的认识, 增强家长和学校的互动; 在社会层面, 制定相应的政策应对欺凌事件。

在干预项目之后, 大量的实证研究对各种反欺凌项目的干预效果进行了检验, 可是得出的结果并不一致, 很多综述和元分析都对其进行了梳理。Vreeman和Carroll (2007)归纳了1996年至2004年共26个学校的欺凌干预研究, 其中有9项研究结果显示干预没有显著降低欺凌或者受欺凌行为。Evans, Fraser和Cotter (2014)将研究更新到2013年, 发现测量欺凌行为的22个研究中, 只有50%显示干预显著有效, 测量受欺凌的27个研究中有67%显示受欺凌行为显著降低。Merrell, Gueldner, Ross和Isava (2008)的元分析计算了校园欺凌干预的效果量, 指出反欺凌项目效果量很低甚至无效(Merrell et al., 2008)。但也有一些元分析得出校园欺凌干预是有效的(JimÉnez-Barbero, Ruiz-HernÁndez, Llor-Zaragoza, PÉrez-García, & Llor-Esteban, 2016; Ttofi & Farrington, 2011)。不难发现, 这些元分析结果的不一致可能源于纳入排除标准和效果量计算的差异, 有以下几点需要进一步考虑。

第一, 纳入研究的实验设计有待考虑。在循证研究中, 一般认为随机对照实验(random control trial, RCT)具有较好的信效度。然而对于学校干预而言, 要考虑学校的意愿, 很难实现随机化的分配。即使随机化, 对参与实验的学校数量也有较高的要求。而实际上很多RCT研究并非大规模的干预研究, 可能并没有达到随机化的效果。较新的一篇元分析, 只关注RCT研究, 纳入了16篇研究, 虽然一定程度上保证了内部效度, 但却忽视了其他的实证证据(JimÉnez-Barbero et al., 2016)。而前后测实验组-控制组非RCT设计控制了因变量在基线水平上的差异, 一定程度上可以减少非随机带来的弊端, 这部分的证据也是重要的。尽管也有元分析纳入了非RCT的对照研究, 但是在计算效果量的时候却只采用了后测数据, 忽视了两组的基线水平上的异质性。考虑干预前测数据, 计算两组前后测变化量的标准化差异, 是更加合理的效果量计算方式(Hoyt & Del Re, 2017)。即便对于RCT研究而言, 前后测的重复测量也能够有效提高统计效力和检验力(Carlson & Schmidt, 1999)。

第二, 对干预项目的分类没有细化。根据干预对象, 反欺凌干预可以划分为三类, 一类是直接指向欺凌者, 旨在减少他们的攻击性或者欺凌行为(Şahin, 2012); 一类是直接指向欺凌受害者, 通过心理健康辅导、社交技能训练等提高他们的心理健康水平, 降低受欺凌频率(Fox & Boulton, 2003); 还有一类是更为广泛的欺凌干预, 针对所有学生, 通过教育、纪律、和家长社区的合作等增强学生对欺凌的认识, 提升求助的意识, 进而学生的态度和行为(Saarento et al., 2015)。以上三类干预中, 对于特定对象的干预而言, 干预和测量都是直接命中目标对象, 需要在干预前进行有效的识别。而对于普遍干预而言, 面向的是所有学生, 是“预防+干预”的结合。因此, 在计算效果整体效果量的, 三种类型的干预是有必要分开的。

第三, 未对证据质量强度作评估或者评价不全面。尽管元分析是综合证据结果的强有力工具, 但是并非所有的整体效果量都是有意义的, 对于证据质量的强度的评价是必要的。文献质量评价有多种工具, 例如Cochrane风险偏倚评估、Jadad量表等, 这些评估主要集中于研究设计的质量(Zeng et al., 2015)。GRADE工作组于2004年正式推出一套循证医学证据质量分级和推荐系统, 不仅可以评估RCT证据, 也可用于评估非RCT研究证据, 已经成为国际接受的标准之一。作为系统评价的一部分, GRADE不只关注研究的局限性, 还关注研究的不一致性、间接证据、结果的精确性、发表偏倚, 更加全面的对元分析结果的证据强度进行评估, 有利于指导临床实践(Alonso-Coello et al., 2016)。此外, GRADE系统不仅仅关注单一结果, 还关注其他重要的效果衡量指标。因此, 本研究纳入了欺凌行为、受欺凌行为、心理健康、态度等因变量作为衡量反欺凌干预项目效果的结局指标(outcome variables)。

综上, 本研究除了更新已有的反欺凌干预研究, 还将考虑纳入前后测实验组-控制组干预效果研究, 运用前后测数据进行干预效果量的计算。根据测量对象的不同, 我们分别计算针对欺凌者的干预, 针对欺凌受害者的干预, 及针对所有学生的干预效果, 并采用GRADE证据等级评价对所有的结果变量的证据质量强度进行分级评估。此外, 我们还将考察被试年级、干预周期、干预特征、实验设计对干预效果的影响。

2 研究方法

2.1 文献检索

在英文数据库PubMed、ISI Web of Science、EMBASE、Science Direct、ProQuest中, 使用关键词组合(Bully*/cyberbully*/anti-bully*) and (school) and (intervention/prevention/program/outcome/evaluation/effect/tackling)进行检索。同时在中国知网、万方和维普数据库中, 使用关键词组合(欺凌/反欺凌/网络欺凌/霸凌/欺负And学校/校园And干预/预防/效果)检索。检索的截止时间为2018年2月。

2.2 文献纳入排除

对于检索到的文献, 根据以下9条标准进行筛选和排除。具体的纳入排除流程见图1


图1   文献纳入排除流程图

(1)纳入主题为反欺凌干预项目的效果研究, 针对其他暴力行为(例如枪支使用)的项目研究予以排除。

(2)根据欺凌的明确定义。欺凌形式包括口头的、身体的或者心理的攻击, 虽然是攻击的一种形式, 但是不等完全同于攻击或者校园暴力。

(3)干预项目应用于社区、学校、班级、学生或者家长中, 关注的是学生对欺凌行为的态度、欺凌和受到欺凌行为的变化。

(4)随机对照实验或者准实验设计, 包含控制组。

(5)结果变量包括学生对欺凌行为的态度, 以及欺凌他人或者受欺凌行为结果。结果报告方式包括自评报告、同伴评分、教师或者家长评分及外显的行为观察。

(6)对结果变量的测量时间点至少包括干预前测, 干预后测。

(7)研究中必须包含能够计算效果量大小的统计信息, 如样本量, 均值和标准差, F值, p值等。如果缺少该信息, 则先尝试联系作者, 尽可能获取关键变量的统计值。

(8)审查使用同一个研究项目中同一批数据发表的不同期刊论文, 相同的结果不再重复纳入。

(9)所选研究不仅仅包括同行评审期刊论文, 还包括学位论文、书的章节等。

2.3 文献编码

详细阅读和编码每一篇纳入元分析的文献, 包括以下信息:(1)出版特征:出版年份; (2)干预特征:干预周期; 干预措施(a.教育; b.系统干预, 包括制定纪律, 家长、学生教育等); (3)干预对象:年龄或者年级; 主要对象(a.欺凌受害者; b.欺凌者; c.所有学生) (4)结果测量:结果报告方式(a.自评; b.他评, 包括同伴评价, 老师评价, 实验者观察)。

对于结果变量, 我们根据干预项目针对的具体对象进行区分。有的反欺凌干预项目直接针对欺凌者或者欺凌受害者, 这种类型的干预直接命中目标, 通常有较好的干预效果。而另外一些针对广大学生的干预项目, 是普遍型干预, 通常有着较低的效果量, 但仍然被认为是有效的, 因为在普遍干预的学生中发生欺凌行为的比例是相对较低的。已有元分析没有具体划分不同类型的干预项目, 可能混淆反欺凌干预效果。因此, 我们分别计算了针对欺凌者的干预项目对其欺凌行为的改善结果; 针对欺凌受害者干预项目对其受欺凌及心理健康的效果; 针对所有学生的干预项目对欺凌行为和受欺凌行为的干预效果。

2.4 数据分析

首先计算每篇研究每个结果变量的标准化均数差(standard mean difference, SMD)。和以往大部分元分析不同的是, 为了减少实验组和控制组基线水平的差异, 纳入研究为包含控制组的前后测实验设计(pre-post with control, PPWC) (Hoyt & Del Re, 2017)。计算效果量时考虑了干预前测的数据, 先计算两组在结果变量上的前后测变化量的差异, 再参照前测数据的标准差进一步标准化(a), 其中Spre表示的是前测的合并方差, 通过实验组和对照组样本量和标准差求得(b)。

${{\text{d}}_{PPWC}}\text{=}\frac{\left( {{T}_{post}}-{{T}_{pre}} \right)-\left( {{C}_{post}}-{{C}_{pre}} \right)}{{{S}_{pre}}}$

${{S}_{pre}}={{\left( \frac{{{n}_{T}}-1S_{T1}^{2}-\left( {{n}_{C}}-1 \right)S_{C1}^{2}}{{{n}_{T}}+{{n}_{C}}-2} \right)}^{0.5}}$

当样本量小时, SMD估计存在偏差, Hedges建议使用校正后的标准化均数差作为效果量, 即Hedges’g值(Cooper, Hedges, & Valentine, 2009)。本研究采用CMA 3.0软件对研究的异质性进行检验, 计算Hedges’ g, 同时进行出版偏差和亚组分析。

异质性检验采用Q值和I2评估纳入研究结果的差异性(Huedo-Medina, SÁnchez-Meca, Marín-Martínez, & Botella, 2006)。Q统计量效应量的加权离均平方和, 服从自由度为k-1的卡方分布, Q值越大, p值越小, 说明元分析纳入研究的异质性越大。I2反应了异质性部分在效应量中总的变异中所占的比重。一般认为p < 0.05或者I2 > 50%研究间存在显著的异质性。在异质性较大的情况下, 建议计算效果量时使用随机效应模型(Hedges & Vevea, 1998)。为了进一步分析效果量的异质性来源, 对元分析结果还进行了敏感性分析和亚组分析。敏感性分析采取逐一剔除每个纳入的研究再进行效应量的合并, 可以找出效应量异常的研究。亚组分析从临床异质性和方法学异质性的角度来探讨异质性的来源。本研究分析的亚组变量包括干预周期、干预特征、被试年龄、实验设计。

发表偏倚指的是在同类研究中, 阳性结果的论文比阴性结果的论文更容易被接受和发表的现象, 对元分析结果的推广具有重要影响。本研究采用漏斗图(funnel plots)对发表偏倚进行评估。漏斗图是以效果量为横轴, 样本量为纵轴作散点图。理论上认为小样本研究估计的效果量差异较大, 分散在漏斗图的底部, 大样本的研究估计的效果量的变异程度逐渐降低, 因而趋于密集在漏斗图顶部。如果漏斗图不对称或者不完整则说明元分析结果可能存在较大的发表偏倚。由于漏斗图呈现结果较为粗糙, 主观性较强, 因而进一步采用剪补法(trim and fill)检验结果的稳定性(Duval & Tweedie, 2000)。此外, Egger’s检验也被运用于发表偏倚的检验(郑辉烈, 王忠旭, 王增珍, 2009)。

2.5 GRADE系统证据质量

GRADE系统是一套证据评价系统, 是当前证据质量和推荐强度分级的国际标准之一(Alonso-Coello et al., 2016)。由于相对于其他证据评价系统更具有代表性, 在系统评价、卫生技术评估及指南制作中被广泛运用。GRADE将证据质量分为四个等级:高, 中, 低, 极低。质量高低显示的是进一步研究是否会影响或者改变该疗效的评估结果。

在GRADE中, 基于RCT得出的证据被定为高质量, 非RCT研究属于低质量证据。但是二者证据质量还要结合具体的标准进行调整。其中, 可能降低证据质量的因素共有4个:(1)研究的局限性; (2)结果的不一致; (3)间接证据; (4)结果的精确度; (5)发表偏倚。可能提高证据质量的因素包括:(1)大效应值; (2)可能的混杂因素会降低疗效; (3)存在剂量-效应关系。

根据这套定量的证据分级系统, 采用GRADEpro 3.6软件对本研究中结果变量的RCT研究证据及非RCT研究证据结果进行评估, 呈现元分析结果的证据质量。

3 结果

3.1 纳入研究基本信息

共纳入43个反欺凌干预效果研究, 有效样本51个, 总样本量41363人(实验组N = 23582, 控制组N = 17781)。其中, 中文文献4篇, 英文文献39篇。针对欺凌者的干预样本4个, 随机对照样本2个; 针对欺凌受害者干预样本6个, 随机对照样本3个; 针对所有学生干预样本42个, 随机对照样本20个。学生年龄6~16岁之间, 包括小学生、初中生和高中生。详细信息见表1

表1   纳入文新年基本信息

新窗口打开| 下载CSV

3.2 反欺凌项目干预效果

异质性检验结果显示, 反欺凌干预研究间差异性大。对于针对欺凌者的干预样本, 欺凌行为Q = 48.23 (p < 0.001), I2 = 93.79。对于针对欺凌受害者的干预样本, 受欺凌行为Q = 18.45 (p < 0.01), I2 = 73.04, 心理健康Q = 7.95 (p > 0.05), I2 = 49.66 (见表2)。针对所有学生的反欺凌干预样本中, 态度干预研究的Q = 131.79 (p < 0.001), I2 = 93.05; 行为干预研究Q = 330.23 (p< 0.001), I2 = 87.58; 其中欺凌行为改变的Q = 123.96 (p < 0.001), I2 = 70.15; 受欺凌状况改变的Q = 354.73 (p < 0.001), I2 = 89.57 (见表3)。敏感性分析结果显示, 不存在效果异常研究。

表2   针对欺凌者或欺凌受害者的干预效果

欺凌者欺凌行为40.570.08, 1.052.30*48.23***93.79
欺凌受害者受欺凌行为60.420.10, 0.742.60**18.55**73.04
心理健康50.400.14, 0.653.04**7.9549.66

注:*p < 0.05; **p < 0.01; ***p < 0.001。下同

新窗口打开| 下载CSV

表3   针对所有学生的反欺凌项目预防干预效果

态度110.400.19, 0.613.79***131.79***94.41
行为420.210.15, 0.267.09***330.23***87.58
欺凌380.170.12, 0.226.91***123.96***70.15
受欺凌380.190.12, 0.265.27***354.73***89.57

新窗口打开| 下载CSV

针对欺凌者干预项目对其欺凌行为的干预效果g = 0.57 (95%CI: 0.08, 1.05; Z = 2.30, p < 0.05);针对欺凌受害者干预项目对其受欺凌行为干预效果g = 0.42 (95%CI: 0.10, 0.74; Z = 2.30, p < 0.05), 对其心理健康干预效果g = 0.40 (95%CI: 0.14, 0.65; Z = 3.04, p < 0.01) (见表2)。对于所有学生的干预项目, 对态度的影响效果g = 0.40 (95%CI: 0.19, 0.61; Z = 3.79, p < 0.001), 对行为的改变效果g = 0.21 (95%CI: 0.15, 0.26, Z = 7.09, p < 0.001), 其中对于欺凌行为的效果g = 0.17 (95%CI: 0.12, 0.22; Z = 6.91, p < 0.001), 对于受欺凌行为的效果g = 0.19 (95%CI: 0.12, 0.26; Z = 5.27, p < 0.001) (见表4)。

表4   欺凌干预对欺凌行为改变效果量的亚组分析

小学170.140.09, 0.186.18***21.3725.14
初高中210.200.11, 0.294.27***100.77***80.15
<=1学期200.260.18, 0.355.96***64.08***70.35
>1学期180.110.05, 0.173.69***45.60***62.72
多水平220.300.20, 0.405.97***26.89*44.22
个体水平160.100.07, 0.174.73***62.90***66.61
随机190.120.08, 0.175.08***47.99***62.49
非随机190.280.16, 0.394.67**60.86**70.43

新窗口打开| 下载CSV

3.3 发表偏倚

漏斗图2~图4分别检验了针对所有学生的反欺凌干预项目对态度、欺凌行为及受欺凌行为的干预效果研究是否存在发表偏倚。针对所有学生的干预研究显示, 学生态度改变漏斗图经过剪补法校正后, 新增研究为0, 结果较为稳健。以0.05为检验水准, Egger’s 检验(p = 0.100)提示本次纳入研究的发表偏倚较小, 和漏斗图及剪补法分析结果一致。但是, 不管是欺凌行为还是受欺凌行为的漏斗图都不对称, 欺凌行为效果经剪补法校正后, 新增研究14个, 校正后随机效应g = 0.08 (95%CI: 0.03, 0.14); 受欺凌行为效果经剪补法校正后, 新增研究13个, 校正后随机效应g = 0.05 (95%CI: -0.02, 0.12), 说明二者可能存在出版偏差。Egger’s 检验(p欺凌= 0.000, p受欺凌= 0.003)提示本次纳入计算欺凌行为和受欺凌行为改变效果的研究存在发表偏倚, 和漏斗图及剪补法分析结果一致。


图2   针对所有学生的态度干预效果漏斗图; 剪补研究 = 0


图3   针对所有学生的欺凌行为干预效果漏斗图; 剪补研究 = 14, 随机效应g = 0.08, 95%CI: 0.03, 0.14


图4   针对所有学生的受欺凌行为干预效果漏斗图; 剪补研究 = 13, 随机效应g = 0.05, 95%CI: -0.02, 0.12

3.4 亚组分析

表4所示, 亚组分析结果显示, 对欺凌行为改变效果量, 干预周期, 干预特征是显著影响效果量的因素。干预周期小于1学期的效果量(g = 0.26, p < 0.001)高于干预周期大于1学期的效果量(g = 0, 11, p < 0.001), 具有统计学意义(p < 0.05)。多水平干预效果量(g = 0.30, p < 0.001)高于单独个体水平干预(g = 0.10, p < 0.001), 差异统计学上显著(p < 0.01)。非随机研究效果量(g = 0, 28, p < 0.001)高于随机对照研究效果量(g = 0, 12, p < 0.01), 差异显著(p < 0.05)。同样地, 如表5所示, 对于受欺凌行为, 干预周期和干预特征为显著地调节变量。干预周期小于1学期的效果量(g = 0.31, p < 0.001)高于干预周期大于1学期的效果量(g = 0.10, p < 0.001), 具有统计学意义(p < 0.01)。单独个体水平干预效果量(g = 0.10, p < 0.001)低于多水平干预(g = 0.39, p < 0.001), 差异统计学上显著(p = 0.001)。非随机研究效果量(g = 0, 28, p < 0.001)高于随机对照研究效果量(g = 0, 12, p < 0.01), 差异显著(p < 0.05)。初高中被试的干预效果高于小学生的干预效果, 但是差异不具有统计学上的显著意义。

表5   欺凌干预对受欺凌行为改变效果量的亚组分析

小学180.210.14, 0.285.93***63.73***73.33
初高中200.160.04, 0.282.72*234.53***91.90
<=1学期170.310.20, 0.425.59***98.35***83.73
>1学期210.100.02, 0.182.38*170.90***88.30
多水平240.390.24, 0.554.88***52.19***77.09
个体水平140.100.03, 0.182.78*232.15***90.12
非随机200.280.15, 0.414.29***130.97***85.49
随机180.120.04, 0.212.77**198.72**91.45

新窗口打开| 下载CSV

3.5 GRADE证据质量及推荐等级

根据GRADE系统对系统评价的证据质量进行评估, 结果显示, 对于欺凌者的干预效果的证据质量为极低。针对欺凌受害者的干预效果, 不管是RCT证据还是非RCT研究证据质量都为低。针对所有学生的干预项目, 欺凌行为或者受欺凌行为RCT证据为低质量, 非RCT研究为极低质量, 不过态度改变RCT研究的证据质量为中等(表6)。

表6   结果变量证据GRADE总结表

欺凌者欺凌行为RCT12严重2严重3-424240.96(-1.04, 2.95)ÅOOO关键
受凌者受欺凌行为RCT12严重22092160.79(-0.56, 2.14)ÅÅOO关键
非RCT3104630.33(0.07, 0.59)ÅÅOO关键
心理健康RCT12严重22092160.57(-0.13, 1.27)ÅÅOO关键
非RCT293490.49(0.15, 0.84)ÅÅOO关键
欺凌行为RCT114严重2严重3111011010.12(0.08, 0.17)ÅÅOO关键
非RCT10严重2严重3严重150517760.28(0.20, 0.40)ÅOOO关键
受欺凌行为RCT113严重2严重312630107310.12(0.04, 0.21)ÅÅOO关键
非RCT12严重2严重3严重769737910.28(0.15, 0.41)ÅOOO关键
态度RCT16147915890.34(0.06, 0.61)ÅÅÅO重要

注:1盲法和分配隐藏缺失; 2干预措施不同、被试特征差异导致结果不一致; 3单一的问卷自评测量; 4被试数量小

新窗口打开| 下载CSV

4 讨论

本研究更新了已有的元分析, 对反欺凌项目的干预效果研究进行了系统分析, 结果发现欺凌干预是有效的, 不同的反欺凌项目效果有所差异。亚组分析显示干预周期越短, 干预水平越多, 反欺凌干预效果越好。不过进一步的证据质量评价显示现有的研究证据质量较差。

直接针对欺凌者或者欺凌者的干预项目具有中等效果量。对于欺凌者的干预包括共情训练、行为矫正, 目的在于减少欺凌者的攻击性和欺凌行为(Garandeau, Vartio, Poskiparta, & Salmivalli, 2016; Şahin, 2012)。对欺凌受害者的干预包括社交技能训练、成年人监管、提供社会支持等, 目的在于减少欺凌带来的负面心理问题, 并且提高个体的社交能力、自信心、求助能力等以降低受到欺凌的频率(Elledge et al., 2010; Fox & Boulton, 2003; van der Ploeg et al., 2016)。尽管研究显示这些干预项目是有效的, 但是由于研究数量有限, 元分析结果可靠性较低。可能的影响干预有效性的原因有以下几个方面:一方面, 及时、准确地识别欺凌存在一定的困难。由于许多欺凌事件是没有被报告的, 因此学校或者教师未能够及时、准确地识别欺凌者和欺凌受害者(Hymel & Swearer, 2015)。另一方面, 这些干预是事后干预, 管理者更加希望能够预防欺凌行为的发生(Zych, Ortega-Ruiz, & Del Rey, 2015)。还有一种观点认为, 欺凌是群体行为, 旁观者或者欺凌行为见证者的态度和行为也至关重要(Forsberg et al., 2018)。

因此, 针对所有学生的干预项目融合了预防和干预, 面对的对象不只是欺凌者或者受欺凌者, 还包括旁观者、家长、教师等, 干预内容包括知识教育、态度影响、纪律、家长参与等, 是更为常见的反欺凌项目(Evans et al., 2014)。元分析显示, (1)干预对学生态度有中等的效果量, 对于欺凌或者受欺凌行为的效果量小但是显著。(2)态度改变效果量高于行为改变效果量。相对于行为, 态度更容易发生转变(Maio & Haddock, 2014)。另外, 对于一部分学生而言, 欺凌或者受欺凌行为的基线水平本身就较低, 因此干预后的变化较小。JimÉnez-Barbero等人(2016)的结果和本研究相对一致, 但是效果量更低, 可能的原因在于本研究计算效果量的时候考虑了基线数据, 根据Carlson和Schmidt (1999)的检验, 只用后测数据计算的效果量可能会低估真正的效果。(3)被试的欺凌行为和受欺凌行为改变效果量没有差别。Merrell等(2008)发现不同测量工具下, 报告的欺凌结果和受欺凌结果并不相同。尽管本研究同时纳入了自评、教师评价、家长评价、观察数据, 但是大部分研究采用的是自评测量, 因而没有对测量方式或者工具进一步细分, 这可能弱化了欺凌改变效果和受欺凌改变效果之间的差异。

对所有学生的干预研究异质性大, 进一步的亚组分析显示, 干预周期和干预特征是欺凌/受欺凌行为改变量的显著调节变量。和一个已有的元分析一样, 干预周期越短, 干预效果越好, 这似乎让人有些匪夷所思(JimÉnez-Barbero et al., 2016)。有一些研究指出, 反欺凌干预也存在量效反应(dose-response), 表现为越密集, 强度越高的干预项目, 效果越好(Ttofi & Farrington, 2011)。可能对于那些短周期的研究, 干预强度更高, 更密集。此外, 对于那些干预周期很长的研究, 可能在干预初期, 起到的教育或者威慑效果更好, 但是, 随着学生的适应, 对欺凌的关注慢慢降低, 导致欺凌事件重新发生。

系统多水平的干预项目的效果量高于单水平的教育干预。从社会生态视角来看, 欺凌不仅仅是“欺凌者”和“受害者”之间的事, 除了个体的人格特质、行为, 家庭、同伴、学校等系统都与欺凌行为的发生密切相关(Hong, Lee, Lee, Lee, & Garbarino, 2014)。多数的教育干预针对的是个体的知识、态度和行为, 只在个体水平上进行干预。越来越多的干预项目不仅仅从个体水平出发, 还延伸到学校、家庭、社区甚至国家政策中。例如芬兰的Kiva反欺凌项目不仅仅向学生提供反欺凌课程, 还向教师提供反欺凌设备材料, 改变旁观者的角色, 给家长提供反欺凌指导, 设置“反欺凌街道”论坛, 积极应对网络欺凌等等, 从不同的水平进行干预(Yang & Salmivalli, 2015)。有的干预项目还借助公共媒体传播反欺凌信息(Albayrak et al., 2016)。不过, 多水平的干预相对地需要投入更多的人力、物力和财力, 但是从效果上来说, 确实有助于欺凌的预防和干预。

随机实验设计和非随机实验设计下的反欺凌项目干预效果也有显著差异。已有研究指出非随机实验设计或者队列设计的效果量会高于严谨的实验设计, 但是无法提供解释(Ttofi & Farrington, 2011)。在控制了基线水平的差异后, 本研究发现非随机对照干预的效果量更高。可能的原因是非随机设计的研究两组被试可能是不同质的, 在没有使用随机化平衡异质性的情况下, 容易获得“好效果” (Hoyt & Del Re, 2017)。

小学生还是中学生从干预项目中获益更多?本研究显示二者没有显著差异, 与本研究结果不同的是, Lee, Kim和Kim (2015)对13个校园欺凌项目的元分析中发现对初中生的干预效果优于小学生, 因为初中生的认知发展更为成熟, 更容易接受干预。而另一些研究又指出对小学生的干预效果更好, 因为他们可塑性更强, 也更会听老师的话(JimÉnez-Barbero et al., 2016)。包括本研究在内的这些元分析的不一致可能在于过于笼统地将学生划分为小学生或者初中生。Yeager, Fong, Lee和Espelage (2015)认为这种研究间的亚组分析(between-study)是有偏差的, 他们对19个反欺凌项目研究采用了多水平的元分析, 其中年龄作为第一个水平, 结果发现干预效果实际上随着年龄的上升而下降。

值得引起重视的是, 根据GRADE证据分级系统对各个结果变量的质量评价结果显示, 不管是来自随机对照实验还是非随机的研究证据质量多数低甚至极低, 只有态度改变的RCT证据质量为中等。尽管心理学的干预和医学研究还是存在一定的差异, 特别是对于大规模学校干预, 随机对照已经是相对困难, 更不用说双盲和隐藏分配等设计, 但是研究者应该致力于尽可能减少干扰因素, 详细说明实验过程, 并尽可能标准化实验设计。总之, 在反欺凌干预领域, 还需要更多严谨的研究对其效果进行检验。

5 局限和展望

本研究存在几个局限:(1)可能存在“灰色”文献检索遗漏; (2)由于测量方式主要以自评为主, 没有对结果变量进行细分, 而测量工具可能是影响效果量的因素之一; (3)干预研究的异质性很大, 尽管亚组分析找到了两个影响效果量的变量, 但是可能存在更多的影响因素有待进一步进行检验。

从研究结果来看, 未来的研究需要进一步考察具体哪些要素影响干预项目的效果, 同时尽可能提升实验设计的质量, 将干预项目应用到更多的地区、人群中, 并根据实际情况进行调整。并且, 在设计干预项目时, 尽可能从多个水平出发, 更加全面和系统地对预防和干预欺凌。此外, 我国校园欺凌也经常发生(张文新, 2002), 越来越多的研究者关注到校园欺凌的不良后果和风险因素(雷雳, 王燕, 郭伯良, 张雷, 2004), 但是干预研究还相对较少, 未来可进一步结合已有的研究结果, 设计符合我国国情的反欺凌项目, 并进行效果检验。


