作者:王德华 来源: 中国科学报 发布时间:2022-5-25
科学是以数据说话的,任何科学结论都需要数据支持。数据不严谨,会产生不严谨的结论,甚至是错误荒唐的结论。这对社会的影响是极大的,尤其是涉及国计民生问题时,错误的数据很可能会导致错误的决策,进而造成巨大的损失。所以,实验科学无论怎样强调数据都不为过。
最近,我和学生们在组会上又聊到了数据取舍的问题。我的研究生刚刚获得了一个实验的部分数据,需要统计处理组与对照组的差异,但统计后他发现,有一组数据标准差太大,统计结果是“差异不显著”。
我们的实验研究需要检验处理组和对照组之间的差异,或不同因素处理的效应,在这一过程中,令研究人员最头疼的问题就是实验结果与预期不一致,本该有差异显著性的数据,却检测不到差异显著性,概率值大于0.05。在我们平时的科研工作中,这种情况很常见。
在讨论的时候,我跟他说:“如果个别数据偏离了整个样本的变化趋势,要特别重视,首先分析自己的实验过程是否有问题、样品是否有问题等。不符合预期的数据是绝对不能随便删除的,可以在分析数据的散点图和标准差后,决定是重复一次实验,还是增加样本数。”
数据取舍,是我们组会上经常讨论的问题。我一般会跟我的学生说,出现个别偏离的数据,要认真分析是不是这个样本有问题,并结合这个样本的其他参数予以考虑。比方说,如果同一个动物实验中,多个参数都出现了问题,就要考虑可能是动物样本的问题;如果仅是某个参数不符合预期,可以分析测定过程是否出了问题。但基本原则是,不能随便删除数据。
面对个别偏离的数据时,我们的处理方法一般有以下三种。第一,再重复测定一次;第二,如果问题依然存在,又不好解释,按照数据散点图,将偏离平均值范围太大的数据在散点图上标记出来,统计分析时,说明这个数据没有被统计进来;第三,根据统计学中判断奇异值的方法,进行个别数据取舍。
有时我们会发现,统计结果是由个别数据引起的,如果去掉偏离平均值范围大的数据,差异显著性就出来了。这时,有些研究人员就会产生一种取舍数据的冲动,想删除这个不理想数据。但这是很危险的,因为随便取舍数据,或根据自己的需要取舍数据、选择性使用数据,就触碰到了学术不端的红线。
我认为,研究人员产生数据不当取舍行为的一个直接原因是功利化心态、浮躁心态。例如,研究生有毕业发表论文的需要,年轻学者有晋升和申请各种名誉奖项的需要等。如果没有正确对待科学的心态,没有对待科学数据严谨的态度,而是论文至上,再加上没有强有力的监督机制和惩罚措施,出问题是不奇怪的。
为避免不当的数据取舍,应该对实验的原始记录给予高度重视。我们实验室每周都有组会,大家有数据就会在组会上讨论。研究生和导师交流时,也要提供原始数据。