
计数资料
计数资料是将观察单位按某种属性或类别分组后,清点各组数量所得的统计资料,其核心特征是没有度量衡单位,数据表现为不同类别的绝对数,如性别分组中的男女人数、血型分布中的各型人数等。这类资料的各组之间具有质的差异,例如“男性”与“女性”属于不同属性,无法直接比较大小。在医学研究中,常见的计数资料包括疾病发病率、治疗有效人数、职业分布等,其分析需通过相对数(如率、构成比)实现数据的可比性,而非直接使用绝对数。
计数资料的本质是对定性观察结果的量化记录。例如调查某人群血型分布时,先按A、B、AB、O四型分组,再统计各组人数,得到的“200人A型、150人B型”即为计数资料。其关键特点包括:
离散性:数据以整数形式呈现,如“患者人数”“阳性例数”,不存在小数点后的连续数值。
分类互斥性:每个观察单位仅归属一个组别,如性别分类中,某个体只能是“男”或“女”。
统计描述依赖相对数:绝对数本身难以反映现象强度,需转换为率(如发病率)、构成比(如年龄构成)或相对比(如男女比例)。例如某地2000名易感儿童中240例患水痘,绝对数“240例”需转化为12%的发病率才能说明流行强度。
在统计学中,计数资料属于定性资料的子类,需与计量资料(定量资料)和等级资料明确区分:
vs 计量资料:计量资料具有度量衡单位(如身高cm、血压mmHg),可通过均数、标准差描述,而计数资料无单位,需用频数、百分比描述。例如“患者年龄25岁”是计量资料,“患者性别男”是计数资料。
vs 等级资料:等级资料虽也属于定性资料,但各组存在顺序关系(如治疗效果“治愈>好转>无效”),而计数资料的分组无顺序(如血型A、B、O型)。
计数资料的分析需根据研究设计和比较目的选择方法,核心是通过假设检验推断组间差异是否具有统计学意义。以下为常见场景及对应方法:
单样本率与总体率比较:如“某地高血压患病率是否高于全国23%”,可用单样本u检验或二项分布确切概率法。
两样本率比较:
配对设计(如同一批患者治疗前后的阳性率变化):采用配对χ²检验(McNemar test)。
非配对设计(如两组患者的治愈率比较):若样本量足够(四格表理论频数≥5),用Pearson χ²检验;否则用Fisher确切概率法。
R×C表资料(如不同职业人群的疾病分布):
双向无序(如职业与血型的关联性分析):用χ²检验或列联系数评估关联强度。
单向有序(如不同教育程度人群的患病率比较):若分组变量有序(如“小学<中学<大学”),仍用χ²检验;若反应变量有序(如“无效<有效<治愈”),需用秩和检验。
当存在混杂因素(如年龄对心肌梗塞与避孕药关系的影响)时,需用分层χ²检验(Mantel-Haenszel法) 调整混杂效应,确保组间可比性。
避免“以构成比代替率”:构成比反映内部组成(如“某病患者中30%为老年人”),而率反映事件强度(如“老年人患病率20%”),两者不可混淆。例如某厂慢性支气管炎患者中,15~20年工龄组占比最低,但该组患病率实际最高,因该组总人数少导致构成比低。
样本量与检验方法匹配:四格表χ²检验需满足“理论频数≥5”,否则需改用确切概率法,否则易导致错误结论。
相对数的合理使用:计算率时需明确“分子”(实际发生某现象的例数)与“分母”(可能发生该现象的总例数),如“发病率=新发病例数/暴露人口数”。
计数资料是医学研究的基础数据类型之一,其分析结果直接影响临床决策与公共卫生策略。例如通过χ²检验比较两种抗生素的有效率,可为治疗方案选择提供依据;通过分层分析控制年龄混杂后,能更准确评估口服避孕药与心肌梗塞的关联。理解计数资料的特性与分析逻辑,是避免“将性别比例直接比较身高差异”这类基础错误的关键,也是开展高质量临床研究的前提。
从血型分布到疫苗接种率,计数资料无处不在,但它的价值不在于数字本身,而在于通过统计学工具揭示分类背后的规律。当你看到“某疗法有效率70%”时,不妨思考:这个数字是率还是构成比?它与对照组的差异是否经过χ²检验验证?这些问题的答案,正