新世纪20年国内假设检验及其关联问题的方法学研究

doi:10.3724/SP.J.1042.2022.01667

摘要/Abstract

摘要：

新世纪20年来国内假设检验方法学研究内容可分为如下几类: 零假设显著性检验的不足、p值的使用问题、心理学研究的可重复性问题、效应量、检验力、等效性检验、其他与假设检验关联的研究。零假设显著性检验已经发展成一套组合流程: 为了保证检验力和节省成本, 实验研究需要做先验检验力分析预估样本容量, 但问卷超过160人在传统统计中就没有必要这样做。当拒绝零假设时, 应当结合效应量做出结论。当不拒绝零假设时, 需要报告后验检验力; 如果效应量中或大而检验力不够高, 则可增加被试再行分析, 但这一过程应主动披露, 报告最后的实际p值并对可能犯的第一类错误率做出评估。

关键词: 假设检验, p值, 效应量, 检验力, 等效性检验

Abstract:

Hypothesis testing is an important part of inferential statistics. Most reported statistical test results are based on the null hypothesis significance test (NHST). In the first two decades of the 21st century, the studies on hypothesis testing and related topics in China’s mainland cover such topics as the deficiency of the null hypothesis significance test, use of P-value, repeatability of psychological research, effect size, power of a statistical test, and equivalence test, among others. This systematic review summarizes the main findings and gives suggestions.

NHST has a wide range of applications to a variety of fields, from mathematical statistics to psychology. In the past two decades, Chinese researchers have experienced a process from knowing, using, misunderstanding, understanding, and questioning it, to constantly proposing improvement methods. NHST still occupies an important position in scientific research, despite some shortcomings. When providing statistically significant results, it is recommended to offer precise P-values in order to better evaluate the type I error rate. When one wants to verify is equivalence (or zero effect), a better approach is to set an equivalent boundary value and put the equivalence hypothesis in the position of alternative hypothesis.

NHST has been developed into a set of procedures as follows: First, to ensure the power of a statistical test and save costs, one should do a priori power analysis before sampling, and calculate the required sample size. The only exception is questionnaire studies with more than 160 participants which usually do not need such priori power analysis in the traditional statistical analysis. Second, to collect and analyze data, and report NHST results and confidence intervals. Third, to calculate and report the effect size if the results are statistically significant (at this time only the Type Ⅰ error is possible), and draw conclusions based on the magnitude of the effect size. Fourth, to calculate the effect size if the results are not statistically significant (at this time only the Type Ⅱ error is possible), and accept the null hypothesis if the effect size is small. However, a posterior power analysis is required when the effect size is medium or large. If the test power is high, the null hypothesis will be accepted; if the test power is less than 80%, more participants could be added for further analysis. The process of increasing the sample size should be reported clearly, with the final P-value presented and the type I error rate evaluated.

Furthermore, the reproducibility crisis of psychological research is partly attributable to NHST. But the reproducibility of scientific research must be strictly defined. Although the failure to replicate a study may result from inaccurate operations and improper methods, it may also be caused by moderating effect. We can't judge the scientificity of a study simply by whether it is replicable.

There are three major aspects for expanding the research on the related issues of hypothesis testing. Firstly, the equivalence test has been extended to the evaluation of structural equation models. Second, the analysis of test power has been extended to models other than those in traditional statistics, such as mediation effect models and structural equation models. Third, the effect size has also been extended to models other than those in traditional statistics, and a new R²-type effect size was proposed by using variance decomposition.

Key words: hypothesis testing, p-value, effect size, power of statistical test, equivalence test

中图分类号:

B841

温忠麟, 谢晋艳, 方杰, 王一帆. (2022). 新世纪20年国内假设检验及其关联问题的方法学研究. 心理科学进展 , 30(8), 1667-1681.

WEN Zhonglin, XIE Jinyan, FANG Jie, WANG Yifan. (2022). Methodological research on hypothesis test and related issues in China’s mainland from 2001 to 2020. Advances in Psychological Science, 30(8), 1667-1681.

图/表 6

参考文献 195

[1]	安胜利. (2007a). 假设检验应用中的常见问题及改进方法. 南方医科大学学报, 27(3), 382-389.
[2]	安胜利. (2007b). 用传统显著性检验方法进行等效性检验的规律研究. 中国药房, 18(26), 2077-2080.
[3]	安胜利, 陈平雁. (2007). 等效性检验与差异性检验的区别及其模拟验证. 中国卫生统计, 24(3), 226-228.
[4]	陈功兴, 容迪. (2010). 统计效力和效应量的估计方法与应用. 企业科技与发展, (22), 132-133.
[5]	陈平雁. (2015). 临床试验中样本量确定的统计学考虑. 中国卫生统计, 32(4), 727-733.
[6]	陈启山. (2006). 心理学研究中应用统计方法应注意的几个问题. 心理与行为研究, 4(3), 200-206.
[7]	陈薇, 郑国华, 刘建平. (2011). 正确理解与阴性结果试验相关的统计学概念. 中西医结合学报, 9(5), 487-490.
[8]	程开明, 李泗娥. (2019). 科学研究中的P值: 误解、操纵及改进. 数量经济技术经济研究, 36(7), 117-136.
[9]	戴金辉. (2019). 区间估计与参数假设检验的比较. 统计与决策, 35(9), 72-74.
[10]	代骏豪, 郑强. (2017). 生物等效性研究中的受试者例数确定和事后统计功效. 中国新药杂志, 26(24), 2892-2897.
[11]	邓文丽. (2003). 重复测量中两组均值是否相等的假设检验. 应用概率统计, (2), 198-202.
[12]	丁士俊, 姜卫平. (2014). 线性半参数模型非参数假设检验理论和方法. 武汉大学学报(信息科学版), 39(12), 1467-1471.
[13]	丁守銮, 王洁贞, 孙秀彬, 傅传喜, 郭冬梅. (2004). 单样本和两样本单侧Z检验P值的理论分布及应用. 中国卫生统计, 21(3), 28-32.
[14]	杜宇静, 姜丽萍. (2016). 序贯k-out-of-n系统在序约束下参数的假设检验. 吉林大学学报(理学版), 54(3), 487-492.
[15]	段乃华, 王元佳. (2011). 精神医学中的生物统计(1) 显著性检验与可信区间. 上海精神医学, 23(1), 60-63.
[16]	樊明智, 王芬玲. (2006). 区间估计与假设检验. 统计与决策, (12), 141-143.
[17]	方杰, 张敏强, 邱皓政. (2012). 中介效应的检验方法和效果量测量: 回顾与展望. 心理发展与教育, 28(1), 105-111.
[18]	房祥忠, 陈家鼎. (2003). EM算法在假设检验中的应用. 中国科学(A辑:数学), 33(2), 180-184.
[19]	傅军和. (2009). 经典检验P值的若干问题. 统计与决策, (1), 156-157.
[20]	傅莺莺, 田振坤, 李裕梅. (2019). 方差分析的回归解读与假设检验. 统计与决策, 35(8), 77-80.
[21]	甘伦知. (2011). 假设检验中控制第二类错误的探讨. 统计与决策, (22), 35-37.
[22]	耿修林. (2008). 方差推断时样本容量的确定. 统计与决策, (16), 23-25.
[23]	龚凤乾. (2003). 统计检验: 实证会计研究方法的核心. 现代财经-天津财经学院学报, 23(2), 48-51.
[24]	郭宝才, 孙利荣. (2010). 关于假设检验中的几个问题的探讨. 统计与决策, (6), 10-11.
[25]	郭璐. (2016). 体育科学研究中统计应用的7个误区. 北京体育大学学报, 39(5), 132-136.
[26]	郭文. (2012). 两类错误条件下方差检验中样本容量的确定. 统计与决策, (9), 12-14.
[27]	韩兆洲, 魏章进. (2005). 假设检验的一个常见误区. 统计与信息论坛, 20(1), 9-11.
[28]	郝丽, 刘乐平, 申亚飞. (2016). 统计显著性: 一个被误读的P值——基于美国统计学会的声明. 统计与信息论坛, 31(12), 3-10.
[29]	何春. (2011). 正态总体均值与标准差比在序约束下的假设检验. 统计与决策, (16), 15-16.
[30]	贺江南, 张新佶, 谢之辉, 吴美京, 贺佳. (2009). 正态分布资料等效性评价的传统假设检验方法与贝叶斯方法比较. 中国卫生统计, 26(4), 422-425.
[31]	何平平. (2004). 置信区间与假设检验关系中的一个误区. 数理统计与管理, (4), 77-80.
[32]	贺文武. (2004). 浅议零假设及再检验. 统计与决策, (1), 121-122.
[33]	何晓东. (2004). 数据何以“起死回生”——谈外语科研中的显著性检验. 山东外语教学, (2), 62-64.
[34]	侯紫燕, 廖靖宇. (2007). 重复测量试验模型参数似然比检验及其功效分析. 应用概率统计, 23(1), 68-76.
[35]	侯紫燕, 原新凤. (2007). 一类多元重复测量模型参数的似然比检验及其功效分析. 系统科学与数学, 27(4), 544-554. doi: 10.12341/jssms09478
[36]	胡传鹏, 孔祥祯, Wagenmakers, E.-J. Ly, A., 彭凯平. (2018). 贝叶斯因子及其在JASP中的实现. 心理科学进展, 26(6), 951-965.
[37]	胡传鹏, 王非, 过继成思, 宋梦迪, 隋洁, 彭凯平. (2016). 心理学研究中的可重复性问题: 从危机到契机. 心理科学进展, 24(9), 1504-1518.
[38]	胡春健. (2013). 小样本下Kendall τ相关系数的显著性检验. 控制工程, 20(6), 1195-1197.
[39]	扈慧敏, 徐兴忠. (2007). 双因素方差分析模型中的广义p-值. 北京理工大学学报, 27(9), 843-846.
[40]	胡思贵, 王红蕾. (2019). 计数型最小样本量截尾值的序贯检验. 中国科学:数学, 49(6), 931-942.
[41]	胡竹菁. (2010). 平均数差异显著性检验统计检验力和效果大小的估计原理与方法. 心理学探新, 30(1), 68-73.
[42]	胡竹菁, 戴海琦. (2011). 方差分析的统计检验力和效果大小的常用方法比较. 心理学探新, 31(3), 254-259.
[43]	胡竹菁, 戴海琦. (2017). 心理学实验研究的效果大小. 心理学探新, 37(1), 70-77.
[44]	黄嘉佑. (2005). 气象中使用统计检验的几个问题. 气象, (7), 3-5.
[45]	黄闪闪, 高瑞华. (2014). 逻辑与方法论:贝叶斯统计推理探索的双重视角. 统计与决策, (15), 4-8.
[46]	黄秀秀, 张崇岐. (2014). 混料模型的假设检验. 数理统计与管理, 33(4), 620-627.
[47]	纪竹荪. (2003). 假设检验与区间估计的关系及应用. 统计与决策, (3), 79-80.
[48]	贾旭山, 金振中. (2008). 二项分布贝叶斯假设检验方法. 现代防御技术, 36(5), 37-40.
[49]	贾旭山, 金振中. (2012). Bayes假设检验及样本数量问题研究. 现代防御技术, 40(4), 67-70.
[50]	江海峰. (2009). 双总体假设检验的另类区间估计法及其MCS研究. 统计与决策, (17), 18-21.
[51]	江梅. (2010). 总体相关系数比较的假设检验. 中国卫生统计, 27(1), 83-87.
[52]	江忠伟, 郭新颖. (2018). 基于最小广义特征值的两因素多元方差分析检验法则探讨. 统计与决策, 34(24), 82-85.
[53]	焦璨, 张敏强. (2014). 迷失的边界: 心理学虚无假设检验方法探究. 中国社会科学, (2), 148-207.
[54]	金炳陶, 马承霈. (1992). 检验功效的计算及其应用. 工科数学, (2), 45-47.
[55]	金辉, 邹莉玲. (2017). 假设检验和P值的再认识. 环境与职业医学, 34(2), 95-98.
[56]	金晓峰. (2004). 体育统计假设检验中几个问题的探讨. 北京体育大学学报, 27(9), 1221-1222.
[57]	李楚进, 万建平. (2015). 统计检验的发展与应用. 统计与决策, (23), 2.
[58]	李海峰, 姜小峰. (2014). 正确理解和运用比值比反映的效应量. 中国神经免疫学和神经病学杂志, 21(5), 381.
[59]	李康. (2005). 第二讲数据假设检验的思想与方法. 中国地方病学杂志, 24(2), 118-119.
[60]	李克均, 时松和, 施学忠, 胡东生. (2008). 对应分析应用中的假设检验问题. 中国卫生统计, 25(2), 199-203.
[61]	李路路, 侯艳, 吴莹, 李康. (2014). 设有安慰剂组的多臂非劣效临床试验定量数据的假设检验方法. 中国卫生统计, 31(6), 1093-1095.
[62]	李荣华, 徐九韵. (2001). 多维正态总体零均值的假设检验. 石油大学学报(自然科学版), 25(6), 112-113.
[63]	李胜联, 荀鹏程, 欧超燕. (2006). 变异的假设检验及其应用. 中国卫生统计, 23(6), 560-561.
[64]	李世明, 刘学贞, 徐迪生. (2004). 运动生物力学研究中统计方法应用的几个问题. 广州体育学院学报, 24(1), 39-41.
[65]	李文华, 雷金星. (2005). 假设检验中两类错误的成因、发生概率及其相关问题——以单个总体均值检验为例. 统计与决策, (4), 117-119.
[66]	李勇. (2011). 随机信息中正态均值的灰色统计假设检验判定. 统计与决策, (22), 29-30.
[67]	李勇. (2012). 方差未知的灰色统计假设检验及应用. 统计与决策, (9), 74-76.
[68]	李勇. (2016). 基于两正态均值的灰色统计假设检验研究. 统计与决策, (1), 19-21.
[69]	林丹明, 李炜文, 梁强. (2008). 我国管理学研究的统计功效分析. 中大管理研究, 3(4), 84-102.
[70]	林路, 张润楚. (2001). 假设检验的相对稳定性. 应用数学学报, 24(4), 616-622. doi: 10.12387/C2001154
[71]	林晓辉. (2001). 异方差且未知情况下两正态总体等均值检验的贝叶斯观点统计量. 统计与信息论坛, 16(4), 17-26.
[72]	林晓辉. (2006a). 贝叶斯统计学假设检验的一种新方法. 统计与决策, (16), 9-11.
[73]	林晓辉. (2006b). 论模糊数学在假设检验中的应用. 统计与信息论坛, 21(4), 25-31.
[74]	刘红云, 袁克海, 甘凯宇. (2021). 有中介的调节模型的拓展及其效应量. 心理学报, 53(3), 322-338.
[75]	刘佳, 霍涌泉, 陈文博, 解诗薇, 王静. (2018). 心理学研究的可重复性“危机”: 一些积极应对策略. 心理学探新, 38(1), 86-90.
[76]	刘媚. (2011). 混合双参数Pareto分布的假设检验. 统计与决策, (2), 34-35.
[77]	刘铁川, 王闪闪, 桂雅立. (2019). 方差分析效果大小报告的新指标. 心理学探新, 39(3), 238-243.
[78]	刘玉秀, 徐晓莉, 郑均. (2008). 配对二项数据等效性/非劣效性评价的样本含量估计和假设检验. 中国临床药理学与治疗学, 13(3), 299-302.
[79]	刘韵源, 刘嘉, 陈元立, 周家丽. (2001). 糊状态风险分析的广义Logistic回归理论与应用(7)—病例对照研究设计中样本大小与统计功效的估计. 中国公共卫生, 17(2), 22-23.
[80]	刘遵雄. (2018). 类别数据拟合优度检验功效模拟. 统计与决策, 34(24), 86-87.
[81]	刘遵雄, 田珊珊. (2017). 多重假设检验中参数估计问题研究. 统计与决策, (5), 23-26.
[82]	龙兵. (2014). 两参数Lomax分布中参数的区间估计和假设检验. 江西师范大学学报(自然科学版), 38(2), 176-179.
[83]	卢谢峰, 唐源鸿, 曾凡梅. (2011). 效应量: 估计、报告和解释. 心理学探新, 31(3), 260-264.
[84]	骆大森. (2017). 心理学可重复性危机两种根源的评估. 心理与行为研究, 15(5), 577-586.
[85]	罗荣华, 吴锟. (2014). 假设检验的一种新思维. 统计与决策, (8), 23-25.
[86]	罗晓娟. (2011). 对假设检验方法的改进. 统计与决策, (15), 157-158.
[87]	吕佳, 乔克林. (2010). 浅谈假设检验中的P-值. 科学技术与工程, 10(34), 8494-8496.
[88]	吕小康. (2012). Fisher与Neyman-Pearson的分歧与心理统计中的假设检验争议. 心理科学, 35(6), 1502-1506.
[89]	吕小康. (2014). 从工具到范式: 假设检验争议的知识社会学反思. 社会, 34(6), 216-236.
[90]	牟唯嫣, 熊世峰. (2009). 正态密度比的假设检验. 应用概率统计, 25(6), 632-640.
[91]	聂丹丹, 王浩, 罗蓉. (2016). 可重复性: 心理学研究不可忽视的实践. 中国临床心理学杂志, 24(4), 618-622.
[92]	牛莉. (2005). 总体参数单侧检验时如何提出假设H. 东北林业大学学报, 33(3), 87-88.
[93]	潘高田, 王精业, 杨瑞平. (2001). 小样本离散型多总体和统计量检验法. 系统仿真学报, 13(2), 182-183.
[94]	彭玉兵. (2010). 假设检验中边界样本点的决策. 南昌大学学报(理科版), 34(4), 346-352.
[95]	蒲显伟. (2016). 定量数据分析效应值: 意义、计算与解释. 心理学探新, 36(1), 64-69.
[96]	钱俊, 陈平雁. (2005). 假设检验中计算观察检验效能的意义的探讨. 中国卫生统计, 22(3), 133-137.
[97]	丘甜, 华伟平, 李新光. (2017). 双幂变换下正态线性回归模型参数的假设检验. 统计与决策, (2), 22-24.
[98]	权朝鲁. (2003). 效果量的意义及测定方法. 心理学探新, 23(2), 39-44.
[99]	沈光辉, 范涌峰, 陈婷. (2019). 教育研究中的P值使用: 问题及对策——兼谈效应量的使用. 数学教育学报, 28(4), 92-98.
[100]	施能, 章爱国, 余锦华. (2009). 气象学中使用统计检验的几个重要注记. 气象科学, 29(5), 670-673.
[101]	宋立新, 张平. (2009). K个单参数指数总体相等的假设检验. 东北师大学报(自然科学版), 41(2), 50-52.
[102]	宋爽, 曹一鸣. (2019). 如何正确解读假设检验结果——兼谈数学教育研究中p值误用问题. 数学通报, 58(7), 14-27.
[103]	孙红卫, 董兆举, 赵拥军. (2012). 对统计假设检验的误解与误用. 中国卫生统计, 29(1), 147-150.
[104]	孙晓峰, 赵喜春. (2003). 二项分布假设检验平均试验数的确定及其应用研究. 战术导弹技术, (3), 53-61.
[105]	唐宝珍. (2004). 对区间估计和总体参数假设检验思想一致性的思考. 统计与决策, (2), 125-126.
[106]	田庆丰, 张功员. (2002). 医学论文中定量资料假设检验方法常见错误分析. 郑州大学学报(医学版), 37(1), 70-73.
[107]	田晓明, 傅珏生. (2005). 多元总体均值差异显著性检验的研究. 心理科学, 28(1), 163-165.
[108]	万树文, 方芳. (2012). 关于两总体均值差的一种半参数假设检验方法. 中国科学:数学, 42(7), 671-679.
[109]	万霞, 李赞华, 刘建平. (2007). 临床研究中的样本量估算: (1) 临床试验. 中医杂志, 48(6), 504-507.
[110]	万霞, 刘建平. (2007). 临床研究中的样本量估算: (2) 观察性研究. 中医杂志, 48(7), 599-601.
[111]	王慧, 高雪, 虞明星, 王彤. (2019). logistic回归中一类基于Wald检验的样本量和功效估计. 中国卫生统计, 36(4), 613-619.
[112]	王静, 胡镜清. (2011). 对临床试验中显著性检验、区间检验及置信区间检验之间关系一致性的认识. 中国临床药理学与治疗学, 16(3), 281-286.
[113]	王珺, 宋琼雅, 许岳培, 贾彬彬, 胡传鹏. (2019). 效应量置信区间的原理及其实现. 心理技术与应用, 7(5), 284-296.
[114]	王石青, 史慧娟. (2007). 方差分类模型的假设检验. 河南师范大学学报(自然科学版), 35(4), 171-172.
[115]	王伟. (2004). 医学科研论文中常见的统计学应用错误分析. 中国现代神经疾病杂志, 4(5), 335-336.
[116]	王晓波, 李会琼. (2017). 大维数据中,协方差矩阵等于某个矩阵的假设检验. 云南大学学报(自然科学版), 39(S1), 24-35.
[117]	王潇文, 吕艳. (2020). 一类随机偏微分方程极大似然估计的假设检验. 山东大学学报(理学版), 55(6), 17-22.
[118]	王雪琴. (2010). 关于均值单边检验的局限性. 科学技术与工程, 10(19), 4740-4743.
[119]	王雅慧, 曹春正. (2016). 含方程误差的重复测量误差模型参数的假设检验. 统计与决策, (4), 16-20.
[120]	王雅玲. (2006). 假设检验中无差别区域问题的讨论. 北京工商大学学报(自然科学版), 24(3), 63-65.
[121]	王阳, 温忠麟, 付媛姝. (2020). 等效性检验——结构方程模型评价和测量不变性分析的新视角. 心理科学进展, 28(11), 1961-1969.
[122]	魏杰, 吴学森. (2006). 变量变换对假设检验效能影响的研究. 中国卫生统计, 23(3), 212-214.
[123]	魏艳华, 王丙参, 邢永忠. (2018). 基于蒙特卡洛方法的假设检验问题探讨. 统计与决策, 34(24), 75-78.
[124]	温煦. (2011). 效应量: 体育科研中不应忽略的统计量. 中国体育科技, 47(3), 142-145.
[125]	温忠麟. (2016). 心理与教育统计(第二版). 广州: 广东高等教育出版社.
[126]	温忠麟, 范息涛, 叶宝娟, 陈宇帅. (2016). 从效应量应有的性质看中介效应量的合理性. 心理学报, 48(4), 435-443.
[127]	温忠麟, 方杰, 沈嘉琦, 谭倚天, 李定欣, 马益铭. (2021). 新世纪20年国内心理统计方法研究回顾. 心理科学进展, 29(8). 1331-1344.
[128]	温忠麟, 吴艳. (2010). 屡遭误用和错批的心理统计. 华南师范大学学报(社会科学版), (1), 47-54.
[129]	温忠麟, 叶宝娟. (2014). 有调节的中介模型检验方法: 竞争还是替补? 心理学报, 46(5), 714-726.
[130]	吴迪, 孙锦峰, 冯丽云. (2007). 假设检验时检验功效的SAS实现. 郑州大学学报(医学版), 42(6), 1190-1192.
[131]	吴凡, 顾全, 施壮华, 高在峰, 沈模卫. (2018). 跳出传统假设检验方法的陷阱——贝叶斯因子在心理学研究领域的应用. 应用心理学, 24(3), 195-202.
[132]	吴启富, 张玉春. (2012). 统计假设检验中小概率原理的辨析. 统计与决策, (17), 70-71.
[133]	吴艳, 温忠麟. (2011). 与零假设检验有关的统计分析流程. 心理科学, 34(1), 230-234.
[134]	夏佩伦, 李本昌, 李博. (2015). 假设检验在军事工程应用中的若干问题. 火力与指挥控制, 40(3), 100-103.
[135]	夏新涛, 王中宇. (2006). 非统计假设检验原理及其应用. 计量学报, 27(2), 190-195.
[136]	谢田法, 吴启光. (2011). 指数族下参数双边检验的p-值. 系统科学与数学, 31(1), 92-104. doi: 10.12341/jssms09464
[137]	谢忠秋. (2018). 权数可靠性的假设检验探讨. 统计与决策, 34(23), 78-80.
[138]	辛自强. (2010). 有关心理统计的三个疑问. 华南师范大学学报(社会科学版), (1), 39-46.
[139]	徐浪, 马丹. (2001). 假设检验中原假设的确定与α控制. 统计与决策, (12), 14.
[140]	徐鹏, 汪卢俊, 严子淳. (2016). 带有随机趋势项的二元选择模型显著性检验研究(英文). 应用概率统计, 32(3), 301-312.
[141]	徐天河, 杨元喜. (2001). 坐标转换模型尺度参数的假设检验. 武汉大学学报(信息科学版), 26(1), 70-74.
[142]	许岳培, 陆春雷, 王珺, 宋琼雅, 贾彬彬, 胡传鹏. (印刷中). 评估零效应的三种统计方法. 应用心理学.
[143]	续志琦, 辛自强. (2018). 单被试实验的统计分析: 非重叠法效果量估计. 心理技术与应用, 6(2), 89-99.
[144]	荀鹏程, 赵杨, 易洪刚, 柏建岭, 于浩, 陈峰. (2006). Permutation Test在假设检验中的应用. 数理统计与管理, 25(5), 616-621.
[145]	颜杰, 李彩霞, 方积乾, 丁守銮. (2004). 完全随机设计两组t检验与秩和检验的功效比较. 中国卫生统计, 21(1), 12-15.
[146]	杨桂元, 刘德志. (2012). 参数假设检验中的若干基本问题研究. 统计与决策, (24), 13-15.
[147]	杨少华, 杨林涛. (2009). 参数假设检验中原假设与备择假设的交换问题. 统计与决策, (5), 148-149.
[148]	姚晨. (2007). 医学研究结论的统计学推断. 北京大学学报(医学版), 39(2), 213-217.
[149]	姚菊香, 王盘兴, 鲍学俊, 卢楚翰. (2007). 相关系数显著性检验的几何意义. 南京气象学院学报, 30(4), 566-570.
[150]	姚嵩坡, 刘盛元, 王滨有. (2010). 假设检验中检验效能的计算及SAS实现. 中国卫生统计, 27(4), 434-436.
[151]	尹玉良, 赵俊龙, 徐兴忠. (2011). 正态模型下单边假设检验问题中频率与贝叶斯证据的一致性. 北京理工大学学报, 31(8), 1001-1004.
[152]	余红梅. (2017). 解析美国统计学会关于统计学检验和P值的声明. 中国卫生统计, 34(1), 173-176.
[153]	于莉莉, 夏结来, 陈启光, 姚晨. (2005). 显著性检验与等效性检验的区别与联系. 中国卫生统计, 22(1), 38-39.
[154]	曾艳, 李桂花, 庄刘. (2011). 完全随机设计两样本的Wilcoxon检验与K-S检验功效比较. 中国卫生统计, 28(4), 372-374.
[155]	张超, 胡军, 陈平雁. (2008). 完全随机设计两样本比较的非参数方法的检验功效比较. 中国卫生统计, 25(3), 230-235.
[156]	张凤宽. (2012). 最大熵原理与假设检验方法探讨. 统计与决策, (15), 10-13.
[157]	张弓, 肖景榕. (2006). 正确理解生物统计学的P值. 现代肿瘤医学, 14(1), 102.
[158]	张功员. (2002). 医学论文中定性资料假设检验方法的常见错误分析. 编辑学报, 14(3), 184-186.
[159]	张厚粲, 徐建平. (2015). 现代心理与教育统计学. 北京: 北京师范大学出版社.
[160]	张建侠, 鞠银. (2012). 假设检验功效的蒙特卡罗模拟. 统计与决策, (4), 83-84.
[161]	张静. (2012). 贝叶斯假设检验与经典假设检验的对比研究. 统计与决策, (9), 36-37.
[162]	张力为, 祁国鹰. (1998). 效果量: 运动心理学研究应予重视的数据分析指标. 北京体育大学学报, (01), 13-18.
[163]	张凌翔. (2006). 对假设检验中几个问题的思考——兼与韩兆洲、魏章进商榷. 统计与决策, (6), 32-34.
[164]	张晓敏. (2008). 一类马氏样本下假设检验问题错误概率的估计. 应用数学, 21(1), 180-185.
[165]	张应应, 魏毅. (2014). R函数实现正态总体均值、方差的区间估计及假设检验的设计. 统计与决策, (9), 74-77.
[166]	赵礼, 王晖. (2019). 统计检验力的分析流程与多层模型示例. 心理技术与应用, 7(5), 276-283.
[167]	赵盼, 宋学力. (2016). 泊松分布参数的序贯概率比检验. 统计与决策, (14), 63-65.
[168]	郑发美. (2009). 两均匀分布区间长度比的置信区间与假设检验. 统计与决策, (22), 152-153.
[169]	郑昊敏, 温忠麟, 吴艳. (2011). 心理学常用效应量的选用与分析. 心理科学进展, 19(12), 1868-1878.
[170]	郑文瑞, 丁栋全. (2007). 多元模糊数据的假设检验方法. 模糊系统与数学, 21(6), 123-127.
[171]	钟路. (2004). 对参数单尾假设检验中存在的问题的探讨. 统计与决策, (11), 27-28.
[172]	仲晓波. (2010a). 零假设检验和元分析之间的逻辑连贯性. 心理科学, 33(6), 1477-1480.
[173]	仲晓波. (2010b). 心理学研究中应该怎样报告实验的结果? 心理学探新, 30(5), 62-65.
[174]	仲晓波. (2015). 心理学实验的可重复性. 心理科学, 38(4), 807-812.
[175]	仲晓波. (2016). 关于假设检验的争议: 问题的澄清与解决. 心理科学进展, 24(10), 1670-1676.
[176]	仲晓波, 黄希尧, 万荣根. (2008). 心理学中对假设检验一些批评的分析. 心理科学, 31(4), 1010-1013.
[177]	Anderson S. F. (2020). Misinterpreting p: The discrepancy between p values and the probability the null hypothesis is true, the influence of multiple testing, and implications for the replication crisis. Psychological Methods, 25(5), 596-609. doi: 10.1037/met0000248 URL
[178]	Champoux J. E., & Peters W. S. (1987). Form, effect size and power in moderated regression analysis. Journal of Occupational Psychology, 60(3), 243-255. doi: 10.1111/j.2044-8325.1987.tb00257.x URL
[179]	Cohen J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Hillsdale, NJ: Erlbaum.
[180]	Liu H., & Yuan, K-H. (2021). New measures of effect size in moderation analysis. Psychological Methods, 26(6), 680-700. https://doi.org/10.1037/met0000371 doi: 10.1037/met0000371 URL
[181]	Liu H., Yuan K.-H., & Wen. Z.(in press). Two-level moderated mediation models with single level data and new measures of effect sizes. Behavior Research Methods. https://doi.org/10.3758/s13428-021-01578-6
[182]	Lu Y., & Belitskaya-Levy I. (2015). p值之争(英文). 上海精神医学, 27(6), 381-385.
[183]	Miller J., & Ulrich R. (2021). A simple, general, and efficient method for sequential hypothesis testing: The independent segments procedure. Psychological Methods, 26(4), 486-497. doi: 10.1037/met0000350 pmid: 33017157
[184]	Open Science Collaboration. (2015). Estimating the reproducibility of psychological science. Science, 349(6251), acc4716.
[185]	Rights J. D., & Sterba S. K. (2018). A framework of R-squared measures for single-level and multilevel regression mixture models. Psychological Methods, 23(3), 434-457. doi: 10.1037/met0000139 pmid: 28301198
[186]	Rights J. D., & Sterba S. K. (2019). Quantifying explained variance in multilevel models: An integrative framework for defining R-squared measures. Psychological Methods, 24(3), 309-338. doi: 10.1037/met0000184 pmid: 29999378
[187]	Sagarin B. J., Ambler J. K., & Lee E. M. (2014). An ethical approach to peeking at data. Perspectives on Psychological Science, 9(3), 293-304. doi: 10.1177/1745691614528214 pmid: 26173265
[188]	Schnuerch M., & Erdfelder E. (2020). Controlling decision errors with minimal costs: The sequential probability ratio t test. Psychological Methods, 25(2), 206-226. doi: 10.1037/met0000234 pmid: 31497982
[189]	Schoemann A. M., Boulton A. J., & Short S. D. (2017). Determining power and sample size for simple and complex mediation models. Social Psychological and Personality Science, 8(4), 379-386. doi: 10.1177/1948550617715068 URL
[190]	Wang Y. A., & Rhemtulla M. (2021). Power analysis for parameter estimation in structural equation modeling: A discussion and tutorial. Advances in Methods and Practices in Psychological Science, 4(1), 1-17.
[191]	Wasserstein R. L., & Lazar N. A. (2016). The asa statement on p-values: Context, process, and purpose. American Statistician, 70(2), 129-133. doi: 10.1080/00031305.2016.1154108 URL
[192]	Wen Z., & Fan X. (2015). Monotonicity of effect sizes: Questioning kappa-squared as mediation effect size measure. Psychological Methods, 20(2), 193-203. doi: 10.1037/met0000029 URL
[193]	Yuan K. H., & Chan W. (2016). Measurement invariance via multigroup SEM: Issues and solutions with chi-square- difference tests. Psychological Methods, 21(3), 405-426. doi: 10.1037/met0000080 URL
[194]	Yuan K. H., Chan W., Marcoulides G. A., & Bentler P. M. (2016). Assessing structural equation models by equivalence testing with adjusted fit indexes. Structural Equation Modeling: A Multidisciplinary Journal, 23(3), 319-330. doi: 10.1080/10705511.2015.1065414 URL
[195]	Zhang Z. Y. (2014). Monte Carlo based statistical power analysis for mediation models: Methods and software. Behavior Research Methods, 46(4), 1184-1198. doi: 10.3758/s13428-013-0424-0 URL

国内文献	效应量分类	对应的指标
郑昊敏等(2011)	差异类	Cohen的d, Glass的Δ, Hedge的g
	相关类	r、r_pb、r_b、r_equivalent、φ及Cramer的V系数等基于χ²统计量的相关系数等; 方差比f², R², η², ω², ε²; 以及r_alerting, r_effectsize, r_contrast等
	组重叠	Improvement-Over-Chance index(I效应量)
卢谢峰等(2011)	标准差异型	d, Δ, g, g_D, g_corrected
	关联强度型(非平方尺度)	φ, V, r, r_pb
	关联强度型(平方尺度)	η², $\text{ }\!\!\eta\!\!\text{ }_{\text{partial}}^{\text{2}}$, ω², R², $R_{\text{partial}}^{2}$, $R_{\text{adjusted}}^{2}$
焦璨和张敏强(2014)	标准化平均数差异效应量	Hedges的g, Cohen的d
	未调校的考虑方差的效应量	R², η²
	调校的考虑方差的效应量	Ezekiel的R^2*, ω²
蒲显伟(2016)	组间差异类(d类)、相关系数类(r类)

国内文献	效应量分类	对应的指标
郑昊敏等(2011)	差异类	Cohen的d, Glass的Δ, Hedge的g
	相关类	r、r_pb、r_b、r_equivalent、φ及Cramer的V系数等基于χ²统计量的相关系数等; 方差比f², R², η², ω², ε²; 以及r_alerting, r_effectsize, r_contrast等
	组重叠	Improvement-Over-Chance index(I效应量)
卢谢峰等(2011)	标准差异型	d, Δ, g, g_D, g_corrected
	关联强度型(非平方尺度)	φ, V, r, r_pb
	关联强度型(平方尺度)	η², $\text{ }\!\!\eta\!\!\text{ }_{\text{partial}}^{\text{2}}$, ω², R², $R_{\text{partial}}^{2}$, $R_{\text{adjusted}}^{2}$
焦璨和张敏强(2014)	标准化平均数差异效应量	Hedges的g, Cohen的d
	未调校的考虑方差的效应量	R², η²
	调校的考虑方差的效应量	Ezekiel的R^2*, ω²
蒲显伟(2016)	组间差异类(d类)、相关系数类(r类)

统计分析方法	效应量	评价标准
t检验	$d=\frac{\left( {{{\bar{X}}}_{1}}-{{{\bar{X}}}_{2}} \right)}{{{S}_{\text{pooled}}}}$	0.2为小, 0.5为中, 0.8为大
相关分析	皮尔逊相关系数	0.1为小, 0.3为中, 0.5为大
方差分析	${{\eta }^{2}}=\frac{S{{S}_{\text{effect}}}}{S{{S}_{\text{total}}}}$	0.01为小, 0.06为中, 0.14为大
回归分析	${{R}^{2}}$	0.02为小, 0.13为中, 0.26为大
中介效应分析	${{P}_{M}}=\frac{ab}{c}$($ab$和${c}'$同号)	总效应按相关系数标准, 中介效应占总效应的20%以上
调节效应分析	加入调节项后, 回归方程的${{R}^{2}}$变化值($\text{ }\!\!\Delta\!\!\text{ }{{R}^{2}}$)	调节项额外解释因变量比例不低于2%

统计分析方法	效应量	评价标准
t检验	$d=\frac{\left( {{{\bar{X}}}_{1}}-{{{\bar{X}}}_{2}} \right)}{{{S}_{\text{pooled}}}}$	0.2为小, 0.5为中, 0.8为大
相关分析	皮尔逊相关系数	0.1为小, 0.3为中, 0.5为大
方差分析	${{\eta }^{2}}=\frac{S{{S}_{\text{effect}}}}{S{{S}_{\text{total}}}}$	0.01为小, 0.06为中, 0.14为大
回归分析	${{R}^{2}}$	0.02为小, 0.13为中, 0.26为大
中介效应分析	${{P}_{M}}=\frac{ab}{c}$($ab$和${c}'$同号)	总效应按相关系数标准, 中介效应占总效应的20%以上
调节效应分析	加入调节项后, 回归方程的${{R}^{2}}$变化值($\text{ }\!\!\Delta\!\!\text{ }{{R}^{2}}$)	调节项额外解释因变量比例不低于2%

方法	假设检验的内容
均值比较	贝叶斯样本均值假设检验(林晓辉, 2001), 样本量与方差对t检验和u检验的影响(金晓峰, 2004), 两组均值比较似然比检验(邓文丽, 2003), 多元总体均值差异显著性检验(田晓明, 傅珏生, 2005), 多维正态总体零均值假设检验(李荣华, 徐九韵, 2001), 正态总体均值与标准差比的置信区间检验(何春, 2011), 两总体均值半参数假检验(万树文, 方芳, 2012), 正态总体均值区间估计和假设检验的R函数(张应应, 魏毅, 2014)
方差分析	方差分类模型的假设检验(王石青, 史慧娟, 2007), 广义p-值法在异方差时优于广义F-检验(扈慧敏, 徐兴忠, 2007), 方差的区间估计和假设检验的R函数(张应应, 魏毅, 2014), 基于最小广义特征值的两因素多元方差分析检验(江忠伟, 郭新颖, 2018), 引入虚拟变量的单因素方差分析(傅莺莺等, 2019)
相关分析	相关系数显著性检验的几何意义(姚菊香等, 2007), 独立总体和相关总体的相关系数假设检验(江梅, 2010), 小样本Kendall τ相关系数显著性检验(胡春健, 2013)
不同分布	二项分布假设检验平均试验数公式(孙晓峰, 赵喜春, 2003), 二项分布贝叶斯假设检验方法(贾旭山, 金振中, 2008), 两个样本正态分布密度比的假设检验方法(牟唯嫣, 熊世峰, 2009), 两均匀分布总体区间长度比的区间估计和假设检验方法(郑发美, 2009), 混合Pareto分布的假设检验问题(刘媚, 2011), Lomax分布参数的区间估计和假设检验问题(龙兵, 2014), 二维连续型分布密度函数假设检验方法(张凤宽, 2012), 总体非正态时逼近统计量分布的数据的假设检验(魏艳华等, 2018)
不同模型	坐标转换模型中尺度参数假设检验模型(徐天河, 杨元喜, 2001), 线性半参数模型非参数假设检验(丁士俊, 姜卫平, 2014), 线性混料模型的假设检验问题(黄秀秀, 张崇岐, 2014), 序约束下带有协变量的序贯k-out-of-n模型的假设检验问题(杜宇静, 姜丽萍, 2016), 含方程误差的重复测量误差模型参数的假设检验方法(王雅慧, 曹春正, 2016), 非平稳二元选择模型的显著性检验方法(徐鹏等, 2016), 双幂变换下正态线性回归模型参数的假设检验问题(丘甜等, 2017), 某一类随机偏微分方程极大似然估计的假设检验问题(王潇文, 吕艳, 2020)
其他	和分布统计量用于小样本离散型多总体的假设检验问题(潘高田等, 2001), 假设检验的相对稳定性(林路, 张润楚, 2001), 变异的假设检验(李胜联等, 2006; 荀鹏程等, 2006), K个单参数指数总体相等的假设检验方法(宋立新, 张平, 2009), 指数族下参数双侧检验的p-值(谢田法, 吴启光, 2011), 对应分析应用中的假设检验问题(李克均等, 2008), 多重假设检验的参数估计问题(刘遵雄, 田珊珊, 2017), 大维数据总体协方差是否等于 ${{\text{ }\!\!\Sigma\!\!\text{ }}_{0}}$${{\sigma }^{2}}{{\text{ }\!\!\Sigma\!\!\text{ }}_{0}}$的假设检验问题(王晓波, 李会琼, 2017), 权数可靠性的假设检验范式(谢忠秋, 2018)