【原创】常用医学统计基本知识和统计方法
【版权声明】本文及图片已获原创作者授权推送,供行业朋友学习、借鉴,版权所有。如需转载,可后台留言联系授权白名单,谢谢合作。
【题记】
对于质量人员和临床试验人员,统计学是一个必不可少的工具。掌握统计学基本知识和基本方法非常重要。
随着监管对统计要求的逐步提高,医疗器械从业者们在质量管理体系、质量控制或医疗器械临床相关从业人员,有没有经常被这样质疑或挑战?“应具有统计学意义”。本文从统计设计、数据收集、数据整理和数据分析,四个方面对常用医学统计基本知识和统计方法进行分享,欢迎感兴趣的朋友参与互动,探讨。
1.统计学的任务
在使用统计学之前,我们要知道,统计学是干什么的?在《统计学》开篇有这样一句话:世界是物质的,物质是运动的,运动是有规律的。这句话道出了统计学的任务:认识世界、发现事物存在的规律、预测未来。这三个任务贯穿了我们使用统计学的始终。
2.统计工作四步骤
统计学是通过收集数据、处理数据和分析数据来揭示事物本质和发现客观规律的。统计工作包括四个步骤:
(1)设计
统计设计是整个统计工作的最核心内容,好比搭建一座房子,设计阶段就需要将整个结构、材料等等都要规划出来。统计设计需要考虑下列内容:
• 确定研究目的、影响因子、研究变量
研究目的通常包括如下几种:
1)描述总体特征;
2)比较总体间或者事件间的差异;
3)评估事件发生的概率;
4)分析变量间的相关关系;
5)将相同性质的事件进行归类。等等。
影响因子和研究变量:
通常用自变量(研究因素和水平)及因变量进行描述。例如研究降高血压药物和治疗时间对高血压(包括收缩压和舒张压)的影响,连续7天用药,测量得到7天的数据并进行分析:研究因素2个(药物和时间)、研究水平7个、因变量2个(收缩压和舒张压)。对于单个因变量,采用单因素分析,如果是多个因变量,采用多元分析。多元分析如果采用单因素分析的方法进行处理,会降低检验效能,也就是使结论犯错误的概率大大增加:例如上面高血压治疗的事例,因变量有两个,如果采用多元分析,其结果的可信度为95%,以同样的方式分别对收缩压和舒张压进行分析后得出结论,其结果可信度将会降低到50%多。
• 确定研究因子和变量的数据类型、分布和适用的统计学方法
数据类型可以按照表1进行设计和判别;数据变量的分布则要通过查相关文献或者通过分布模拟进行确定(这个在SAS, SPSS等软件上可以进行),我们日常用到的分布见表2,常用的统计学方法见表3。
表1 数据类型
表2:统计学上常用的分布
表3 统计学方法
• 抽样和样本量
抽样的目的:抽样目的是研究总体的特征,这点非常重要。为什么要抽样呢?因为总体中的个体间存在误差。所以,反过来说,如果总体中不存在误差或样品的误差对总体研究不存在影响,那就不存在样本量的问题。当我们对我们研究结果进行最后总结时,正规的语言描述应该是:例如,我们认为两个研究总体间不存在统计学差别。
正因为个体间存在差别,所以我们会抽取足够的样本量来评估总体特征,同时,评估差异的程度。每种设计方法其样本量的评估都有其公式。总体上讲,如果个体间变异越大,或者我们希望犯错误的概率越低,就需要更大的样本量。
(2)收集数据
收集数据要注意到数据的完整性,避免信息缺失。数据收集有很多方式,应该在设计阶段就要规划出来,并仔细斟酌。例如,以降压药治疗高血压的数据收集为例,我们需要考虑到所有与血压的有关因素和所有可能干扰血压的因素,同时,如果在数据收集中发现有任何疑问,还要能联系的被调查者。
• 患者基本信息:年龄、性别、身高、体重、体型等等。
• 患者家族信息:是否有家族遗传史。
• 患者生活习惯信息:是否抽烟、喝酒、日常工作压力、睡眠状况及这些习惯是否改变等等。
• 疾病信息:什么类型高血压、日常血压值是多少、什么时候血压最高、近期是否有服用其他的药物等等
• 其他的信息:如果是通过问卷调查的方式,还要注意,应该用简单易懂的语言进行描述,问卷尽量采用选择题的方式,以免造成误解。
• 数据收集通常有如下的几种方法:
1)询问调查(访问调查、邮寄调查、电话调查、座谈会、个人访谈等等);
2)观察实验(观察、实验);
3)文献调查(例如年鉴)等等。
(3)整理数据
收集到数据后,要对数据进行整理,整理的目的是:为了及时发现信息缺失、核对信息是否真实、是否需要进行修正。
• 信息缺失:收集完数据后,需要核对设计阶段确定的信息是否收集完整了,如果存在有缺失值,该缺失值是否会影响到整个分析,如果是,是否能重新调查。如果不能重新调查,该数据可能要剔除或者部分采用。
• 核对信息是否真实:有时候,可能是记录者笔误,或者对于询问调查,可能被调查者提供了错误信息。通常,我们在实验设计阶段,故意设计一些相关的问题去验证被调查者是否提供了错误信息。例如,我们设计两个问题,1)是否有家族高血压遗传史。2)父母或其他直系亲属是否有高血压。两个问题放到同一问卷中。
• 数据修正:对于错误信息,我们可以进行修正,如果无法修正,该数据可能按照数据缺失进行处理。
(4)分析数据
数据整理完成后,对数据进行分析,放映研究对象的总体特征并阐明事物的内在关系。分析数据的目的是:计算有关指标,反应数据的总体特征,阐明事物的内在关系。数据分析包括:1)统计描述:就是用最直观的方式将数据的特征呈现出来,采用统计表、统计图、散点图等描述数据的趋势。2)统计推断:由样本信息推断总体信息。
• 统计描述:我们在上文中提到的均值,标准差等指标,都是统计描述的内容。通常我们采用统计图进行最直观的统计描述。统计图包括直方图、饼图、散点图等等。统计图的选择也是有讲究的,应该选择最能呈现你想表达的内容的那张图。例如,有5组人群身高数据,你想表达这5组数据的差异程度,采用直方图;如果你想表达大米中各个营养成分的比例,用饼图最直观;如果想表达数据的变化趋势或相关性,用散点图最好。
• 统计推断:我们上文提到的T检验,U检验等是统计推断的内容。
笔者发现很多使用者太过于“迷恋”统计推断,而忽略了统计描述。笔者认为这个是不太应该的,会使问题复杂化。打一个比方,统计描述是“侦察兵”,统计推断是“进攻敌人的火器”。首先,要派“侦察兵”去考察敌情,将敌情的规律大体表现出来,例如上面的5组人群身高数据,用直方图或茎叶图将5组数据和其可信区间呈现出来,比较其大小和可信区间的状态,发现规律,仔细分析后再去采用统计推断工具进行分析。其次,在使用统计推断时应该慎重,避免出现错误的推断结果。其中特别要注意的点是:
• 1)样本的代表性:样本是否能代表总体,如果代表不了,总体推断就会错误。这个就要求样本本身的随机性和性。
• 2)仔细分析个体间差异的来源,除了研究因素会带来个体差异外,是否还有其他因素。
• 3)推断的结果要有理论基础,例如不能推断出新生儿的身高与年纪成负相关,如果有这个结论,可能是因素没有控制好。
• 4)要注意统计推断工具的应用条件,例如使用T检验要方差齐性。
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- oldu.cn 版权所有 浙ICP备2024123271号-1
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务