学术投稿

基于排序融合模型的紫癜性肾炎患者中差异表达变量的筛选研究

高兵;刘美娜;谢彪;王玉鹏;孙琳;张秋菊

关键词:排序融合, 变量筛选, 代谢组学, LASSO
摘要:目的 对紫癜性肾炎和过敏性紫癜两类患者中差异表达的代谢产物进行筛选.方法 利用排序融合的思路,将t检验、Wilcoxon秩和检验、偏小二乘、及随机森林等四种方法用于组间差异表达分析,对其所获得的四个变量重要性排序进行融合,获得综合的、单一的变量排序(排序融合模型);利用交叉验证获得优模型,并进行差异变量的筛选;通过模拟实验评价排序融合模型变量筛选的能力并与least absolute shrinkage and selection operator(LASSO)进行比较.后,将其用于紫癜性肾炎与过敏性紫癜患者间的代谢物差异分析.结果 模拟实验结果显示:(1)当观测数和差异变量数较小时,排序融合模型的AUC的平均值大于LASSO;(2)当观测数和差异变量数较大时排序融合模型的AUC的平均值与LASSO相近;3)无论参数如何设置排序融合模型所筛选的差异变量数基本均少于LASSO.实例分析结果显示:应用排序融合模型获得紫癜性肾炎和过敏性紫癜患者中存在12个差异表达的代谢产物,其AUC值达到其大值0. 96.结论 相比于LASSO,排序融合模型在筛选变量时更具可靠性和准确性,可为代谢组学数据的差异表达分析提供新的分析思路和方法.
中国卫生统计杂志相关文献
  • 基于平衡面板数据模型分析新农合政策对农村居民门诊服务利用的影响

    目的 分析新农合政策历史演变对农村居民门诊服务利用的影响.方法 基于济南市三县区两年相同个体平衡面板数据资料,构建面板数据模型,采用随机效应二元选择面板数据模型、随机效应泊松(Poisson)回归模型以及倍差法模型等进行研究.结果 与2008年相比,2011年的四周就诊率增加了4. 1个百分点;年龄、健康自评、是否得慢病、到近医疗机构的距离等对居民门诊服务利用有显著影响;新农合门诊补偿政策对中收入组和高收入组居民门诊服务利用有显著影响,新农合补偿受益主要向中、高收入人群转移.结论 应该适当提高低收入人群新农合门诊补偿水平.

    作者:郑娟;许建强 刊期: 2018年第05期

  • 养老机构老年人生活满意度影响因素的主成分logistic回归研究

    目的 分析养老机构内老年人生活满意度情况及其影响因素.方法 采用整群随机抽样方法,在厦门市13家养老机构抽取230名老年人进行调查,了解养老机构老年人生活满意度状况,并利用主成分logistic回归分析其影响因素.结果 获得有效问卷204份.调查显示厦门市养老机构内老年人生活满意度普遍较高.女性、年龄小、文化程度高、日常生活能力和健康自评效果好、与亲人相见频数高、对机构支持信任度高的老年人生活满意度相对较高.结论 为提高养老机构老年人生活满意度,积极应对老龄化,老人应理性对待自身健康状况,积极面对生活;亲属应多去看望,给予老人更大的关爱和心理慰藉;养老机构也应大力提高其服务质量,丰富服务内容,给予老年人充分的物质、精神支持.

    作者:曾雁冰;王丽霞;张良文;翁陈子恒;方亚 刊期: 2018年第05期

  • 预防医学研究生的医学统计学教学改革

    医学统计学是预防医学研究生的必修课.掌握医学统计学知识,有助于研究生培养科学思维,提高分析和解决问题能力[1-4].以南京医科大学为例,对于全日制科学和临床学位研究生的医学统计学教学在研究生入学后的第一个学期完成,共计60个学时.通过这60个理论学时的学习,学生将掌握医学统计学中常用的参数估计和假设检验方法,掌握医学研究中常用的研究设计方法及分析思路,从而为研究生在第二学期进行医学数据管理和分析打下理论基础,并为随后的科研设计做好准备.

    作者:赵杨;柏建岭;魏永越;易洪刚;赵丽萍;马红霞;柯巧;于浩;陈峰 刊期: 2018年第05期

  • 基本公共卫生服务均等化评价指标体系的研究

    基本公共卫生服务均等化是指每一个公民,不论性别、年龄、民族、居住地、职业和收入水平等,都能平等地获取基本公共卫生服务[1].本研究通过专家和小组讨论,考虑供需双方指标数据的可得性选取评价指标,形成指标体系.构建一套合理可行的均等化评价指标体系,便于对基本公共卫生服务均等化推进过程进行监测和考核,也为基层医疗卫生机构规范开展基本公共卫生服务项目提供方向指引[2].

    作者:张金梦;程梦菲;于贞杰 刊期: 2018年第05期

  • Win Ratio法在比较两组间非正态分布数据中的应用

    目的 介绍Win Ratio法的原理及技术,以及此方法在比较两组间非正态分布数据中的应用.方法 以一项随机对照双盲试验为例,采用Win Ratio法比较不符合正态分布的结局变量(孕周)在两组间的差异,并利用Bootstrap法估算相应的置信区间.同时比较与传统非参数检验方法结果之间的差异,所有分析均采用SAS 9. 4软件.结果 Win Ratio法估算干预组孕周高于对照组的概率为52. 83%,置信区间为(1. 04,1. 21).该结果与传统非参数方法一致,但Hodges&Lehmann法估计的置信区间结果中包含0.结论 相比传统非参数检验方法,Win Ratio除能够在区间估计的基础上判断组间差异是否具有统计学意义,还可以估计干预效应,同时可保证良好的可靠性和把握度.

    作者:李超;康轶君;朱妮;Tao Chen;Duolao Wang;颜 虹 刊期: 2018年第05期

  • 基于Monte Carlo模拟的四种完全随机双变量缺失数据处理方法的比较

    目的 探讨完全随机缺失机制下,成组删除法、均值填补法、回归填补法和多重填补法处理缺失数据的效果及趋势.方法 运用R语言,采用Monte Carlo技术模拟完整数据集、不同缺失比例和相关系数条件下的数据集,比较各种方法处理缺失值的效果.结果 当缺失比例为10%时,4种方法处理效果一致.随着缺失比例增加,4种方法处理后均值变化不大;均值填补法处理后相关系数小于其他方法,多重填补法和标准一致,回归填补法填补后相关系数比其他方法偏高而且呈增加趋势.随着回归系数的增加,回归填补法的相关系数准确性增加.结论 4种方法处理完全随机缺失机制下两个相关变量的效果不同,当缺失比例较低时,建议采用成组删除法或回归填补法.当缺失比例较大时,建议使用多重填补法.

    作者:朱高培;朱乐乐;孟马承;吴学森 刊期: 2018年第05期

  • 天津市城镇职工急性心肌梗死患者二级预防期间医疗资源使用与直接医疗费用研究

    目的 掌握急性心肌梗死患者二级预防期间的医疗资源使用情况、直接医疗费用及影响费用的主要因素,为控制医疗费用过度增长提供数据支持.方法 利用2011-2015年天津市城镇职工基本医疗保险参保人30%随机抽样数据库,纳入2012-2014年间至少有一次以急性心肌梗死为主要住院诊断的成年患者,回顾性分析其随访12个月的二级预防期间有关疾病特异的医疗资源使用及医疗费用情况,并建立广义线性回归模型探究医疗费用的影响因素.结果 本研究共纳入5453名患者,平均年龄为(65. 1 ± 11. 6)岁,72. 7%为男性.随访的二级预防期间,18. 4%的患者有急性心肌梗死住院记录,其年人均住院次数为(1. 2 ± 0. 5)次,年人均住院天数为(11. 6 ± 10. 6)天.95. 4%的患者有急性心肌梗死门诊记录,其年人均门诊次数为(16. 5 ± 10. 1)次.患者因急性心肌梗死产生的年人均医疗费用为11138元,其中药品费占比大(49. 0%).广义线性回归结果表明,基线期是否有心绞痛和全因门诊次数越多的患者,随访期内医疗费用越高.结论 急性心肌梗死患者住院天数偏长,医疗费用较高且药品费占比较大.年龄、基线期是否有心绞痛和全因门诊次数是影响急性心肌梗死患者医疗费用的主要因素.

    作者:王育梅;刘俊;吴晶 刊期: 2018年第05期

  • 山东省老年性痴呆患病现状及影响因素调查研究

    目的 调查山东省老年性痴呆(AD)患病现状及影响因素,为AD的早期预警和防控提供新的思路和手段.方法 采取随机整群抽样方法对山东省60岁以上老年人进行问卷调查.运用多因素logistic回归建立AD发病的风险模型,筛选AD的影响因素.结果 以是否为AD患者为因变量,以影响因素为自变量,进行多因素logistic回归分析.年龄、婚姻、生活满意度、蔬菜、担心子女、亲人距离、联系邻居、体育锻炼为AD的影响因素.结论 老年人及家庭、社会应从年龄、婚姻状况、生活满意度、饮食习惯、社会联系与支持、体育锻炼等方面早期预防和控制AD.

    作者:孟维静;田野;马洁;黄璐;杨光;黄天姿;王素珍 刊期: 2018年第05期

  • 基于微课的翻转课堂实践在MBBS留学生医学统计学理论教学中的初步探讨

    伴随教育国际化的步伐,来我国深造的留学生数量呈不断增长的趋势.据统计,医学专业的留学生已占来华留学生的第二位,留学生的医学教育已经成为我国高等教育的重要组成部分[1].南方医科大学从2005年首次招收临床医学专业学士(bachelor of medi-cine&bachelor of surgery,MBBS)留学生以来,本着严进严出的原则,从2005年的92人增加到2016年的135人,MBBS学生人数增加1. 5倍.如何提高留学生的教学质量以及探索适合临床专业留学生的教学方法及模式已成为我校留学生教学的一个新挑战.本文以我校MBBS留学生的医学统计学教学为例,以微课结合翻转课堂为教学手段来探索留学生课堂教学的实践模式.

    作者:关颖;杜华;邓居敏;欧春泉 刊期: 2018年第05期

  • 三种综合评价方法在社区医疗服务质量评价中的应用

    目的 运用多种综合评价方法对全国社区卫生服务中心的医疗服务工作进行评价,了解2016年我国各省市社区医疗卫生服务现状,综合评价其服务质量,分析地区差异.方法 选取反映社区医疗服务质量的6项指标,采用TOPSIS法、秩和比法和线性插值法对全国各省市的社区医疗服务质量进行综合评价.运用SPSS 17. 0软件对三种方法的排序结果做Spearman相关性分析和Kruskal-Wallis H检验.结果 经Spearman相关性分析,TOPSIS法和线性插值法评价结果的相关性好(r=0. 977,P=0. 000),其次是秩和比法和线性插值法(r=0. 922,P=0. 000),TOPSIS法和秩和比法(r=0. 888,P=0. 000).对三种评价结果进行综合排序,位于前三位的分别是江苏、上海、重庆,后三位分别是山西、吉林、西藏.结论 全国社区医疗服务质量存在地区差异.三种评价结果具有高度相关性.多种评价方法联合使用,其研究结果更能准确、可靠地反映全国社区医疗服务质量.

    作者:李爱娇;张建华;于慧慧;罗盛;王莎莎;徐淑涛;周珊;戴萌娜;闫萍;王祥;常佳;李伟 刊期: 2018年第05期

  • 基于排序融合模型的紫癜性肾炎患者中差异表达变量的筛选研究

    目的 对紫癜性肾炎和过敏性紫癜两类患者中差异表达的代谢产物进行筛选.方法 利用排序融合的思路,将t检验、Wilcoxon秩和检验、偏小二乘、及随机森林等四种方法用于组间差异表达分析,对其所获得的四个变量重要性排序进行融合,获得综合的、单一的变量排序(排序融合模型);利用交叉验证获得优模型,并进行差异变量的筛选;通过模拟实验评价排序融合模型变量筛选的能力并与least absolute shrinkage and selection operator(LASSO)进行比较.后,将其用于紫癜性肾炎与过敏性紫癜患者间的代谢物差异分析.结果 模拟实验结果显示:(1)当观测数和差异变量数较小时,排序融合模型的AUC的平均值大于LASSO;(2)当观测数和差异变量数较大时排序融合模型的AUC的平均值与LASSO相近;3)无论参数如何设置排序融合模型所筛选的差异变量数基本均少于LASSO.实例分析结果显示:应用排序融合模型获得紫癜性肾炎和过敏性紫癜患者中存在12个差异表达的代谢产物,其AUC值达到其大值0. 96.结论 相比于LASSO,排序融合模型在筛选变量时更具可靠性和准确性,可为代谢组学数据的差异表达分析提供新的分析思路和方法.

    作者:高兵;刘美娜;谢彪;王玉鹏;孙琳;张秋菊 刊期: 2018年第05期

  • 组合评价法在山西省孕产妇保健工作质量评价中的应用

    目的 利用组合评价方法对山西省孕产妇保健工作质量进行评价,探讨组合评价法的科学性和实用性.方法 首先应用主成分分析法、秩和比法(RSR)、TOPSIS法和综合指数法对山西省2008-2014年孕产妇保健工作进行评价,然后运用算术平均值法、模糊Borda法、加权平均法和基于离差大化的四种组合评价法对四种单一方法的评价结果进行组合,后检验组合评价的效果,并选择组合效果好的模型结果进行评价.结果 四种组合评价法与四种单一评价法的排序结果均有较强的一致性,其中以模糊Borda法效果好;模糊Borda组合评价结果显示2008-2014年山西省孕产妇保健工作好的是2014年,其次是2012年,差的是2008年,孕产妇保健工作总体趋势逐步提高.结论 组合评价结果与实际情况基本符合,与单一方法相比组合评价法结果更科学、合理,可推广于医药卫生评价领域.

    作者:康育慧;曹文君 刊期: 2018年第05期

  • 基于OBE导向的医学统计学教学模式创新研究

    目的 基于OBE教学理念,探索医学统计学的先进教学模式,旨在提高学生对医学统计学理论知识的理解和实际应用能力.方法 通过整群随机抽样的方法将某医科大学预防医学专业四年级本科生以班级为单位随机分成两组,一组采用传统教学模式(n=118),另一组采用OBE教学模式(n=98).通过测评考试和问卷调查的方式综合评价两组教学模式的学习效果.结果 OBE教学模式组在笔试成绩、总成绩、讨论课学习效果、软件课学习效果、整体学习效果满意度等5个方面均优于传统教学模式,且差异具有统计学意义.结论 以课题研究为能力拓展的OBE教学模式,有助于提高医学统计学的学习效果,为医学统计学的教学改革提供理论依据和实践经验.

    作者:刘龙;何航帜;王蕾;侯雅宣;萨建;王彤;余红梅 刊期: 2018年第05期

  • 传染病医生的组织支持感与工作投入的关系

    目的 初步探索传染病医生组织支持感与工作投入的关系,及心理资本的中介作用,为提升传染病医生工作投入水平提供相关的理论依据.方法 采用现况研究调查法,于2016年11月至2017年1月间整群抽取辽宁省沈阳市、大连市、鞍山市、丹东市、辽阳市800名传染病院医生作为研究对象,发放组织支持感量表(POS)、工作投入量表(UWES)、心理资本量表(PCQ)进行调查,运用SPSS 20. 0、AMOS 21. 0软件,采用多元回归、Bootstrap法进行相关数据分析.结果 调查对象组织支持感的工作支持、员工价值认同、关心利益与工作投入呈正相关(r=0. 44,P<0. 01;r=0. 42, P<0. 01;r=0. 41,P<0. 01),调查对象组织支持感的工作支持、员工价值认同、关心利益与心理资本呈正相关(r=0. 61,P<0. 01;r=0. 60,P<0. 01;r=0. 58,P<0. 01);组织支持感、心理资本对工作投入的预测作用均具有统计学意义(P<0. 05);组织支持感不仅直接影响传染病医生的工作投入水平,而且通过心理资本的中介作用可间接影响传染病医生的工作投入水平,且占总效应73. 4%.结论 在传染病医生人群中,组织支持感能正向预测工作投入水平,心理资本在组织支持感与工作投入水平关系间起到部分中介作用.

    作者:狄畅;马洪林 刊期: 2018年第05期

  • 2011-2015年无锡市居民伤害死亡流行特征分析

    伤害已成为亟待解决的公共卫生问题,据WHO估计,自1990年到2020年,全世界由伤害造成的死亡将会增加65%,达到840万[1].在我国,全人群伤害平均死亡率为48. 38/10万,是1~14岁人群首位死亡原因[2].为了解无锡市居民伤害死亡原因及其特点,本文对2011-2015年无锡市居民伤害死亡资料进行分析,现将结果报告如下.

    作者:黄彬鋆;杨坚波;钱云;董昀球;杨志杰;郭亮亮 刊期: 2018年第05期

  • 随机森林和支持向量机在利用超声影像特征信息诊断乳腺病变性质的应用价值探索

    目的 探索随机森林和支持向量机诊断模型在利用人工判读的超声影像特征诊断乳腺病变性质的应用价值.方法 使用相同的训练数据和测试数据,在不同的自变量筛选策略下将随机森林、支持向量机方法建立判别乳腺病变性质的诊断模型与传统logistic回归模型进行比较,以ROC曲线下面积(AUC)作为预测效果的主要评价指标对各模型进行评估与比较.结果 不同自变量筛选策略下随机森林、支持向量机在测试集上的AUC均与logistic回归模型非常接近,差异无统计学意义.结论 随机森林和支持向量机预测效果并未见明显高于logistic回归,考虑到logistic模型在易用性、可解释性上的优势,建议在利用人工判读的超声影像特征建立诊断乳腺病变性质的预测模型时仍使用传统logistic回归.

    作者:赵子龙;何英剑;欧阳涛;姚晨 刊期: 2018年第05期

  • 幽门螺旋杆菌感染合并代谢综合征与颈动脉内膜厚度的相关性研究

    目的 了解幽门螺旋杆菌(HP)感染情况及其影响因素,进一步探讨HP感染及代谢综合征(MS)与颈动脉粥样硬化程度的关系,并分析两者对其有无协同作用.方法 选择2015年1月至2017年1月间我院健康体检者,对入选人群进行血压、血脂、血糖、体质指数等内科检查、以及颈动脉超声和13C尿素呼气试验,通过上述检查收集体检者HP感染情况、颈动脉内膜厚度等相关信息.结果 共纳入对象508人,HP感染率为55. 3%.体质指数(BMI)在HP(+)组明显高于HP(-)组,差异具有统计学意义(P<0. 05),年龄、性别、收缩压、舒张压、血糖、HDL-C、LDL-C、TG、TC、SUN不是HP感染的影响因素(P>0. 05).HP(+)患者的颈动脉粥样硬化斑块形成的发生率(50. 53%)略高于 HP(-)者(48. 46%),但差异无统计学意义(χ2=2. 128,P=0. 345>0. 05),MS患者的颈动脉粥样硬化斑块形成的发生率(71. 4%)高于非MS患者(52. 6%),且差异具有统计学意义(χ2=30. 416,P<0. 05).进一步分层分析,MS合并HP组斑块形成所占比例明显高于单纯患MS组(75. 76%:65. 38%,P<0. 05),单纯患MS组的斑块形成的发生率较单纯HP(+)组高,差异均具有统计学意义(χ2=33. 048,P<0. 05).结论 BMI可能是HP感染的一个重要影响因素.HP感染与颈动脉内膜厚度无明显相关性,可能与MS有关,HP(+)合并MS对颈动脉内膜厚度变化可能存在协同作用.

    作者:王军 刊期: 2018年第05期

  • 广州市某肿瘤防治中心2015-2016年初诊患者统计分析

    恶性肿瘤,目前已成为我国重大的公共卫生问题,也是我国居民患病死亡的主要原因之一[1].近年来,恶性肿瘤的发病率和死亡率仍有上升趋势,因此对恶性肿瘤的防治工作仍是公共卫生和医疗体系的重中之重[2].中山大学肿瘤防治中心成立于1964年3月,是新中国成立早的4所肿瘤医院之一.本文主要对该中心2015、2016两个年度初诊患者的病案资料进行统计分析,探析其中确诊为恶性肿瘤患者的性别构成、肿瘤构成、各季度分布情况、不同性别恶性肿瘤患者各年龄段分布情况和临床分期情况,以期为该中心恶性肿瘤的防治管理工作提供新的决策支持.具体报告如下.

    作者:翟慧文;刘玉;钟俊学;王红梅;曹素梅 刊期: 2018年第05期

  • 组基础模型在HIV/AIDS患者随访纵向数据研究中的应用

    目的 介绍组基础模型基本原理,使用HIV/AIDS患者随访纵向数据说明分析步骤和实现方法.方法 建立组基础模型,通过选择优轨迹组数,估计亚组成员资格概率,依据亚组成员资格后验概率分配成员资格的步骤,确定HIV/AIDS患者随访三年CD4细胞计数所属的轨迹组,并分析轨迹组分配概率的影响因素.结果 528名HIV/AIDS患者CD4细胞计数终被分为四组,各轨迹形态依次为:第1组为线性,第2组为常数,第3、4组为2次曲线.样本中大部分对象被分配到第1组(31. 82%)和第2组(46. 97%),第3、4组分配比例较低.各组分配正确率很高,均≥80%.时间恒定协变量中,以第1组为参照,其余3组中仅确诊感染HIV年龄有统计学意义(P<0. 05),且为负向作用,提示确诊感染HIV年龄越大,进入第1组的可能性越高.接受抗HIV治疗在第2、3、4组存在统计学意义(P<0. 05),为负向关系,提示接受抗HIV治疗者CD4细胞计数更低.结论 组基础模型在考虑总体异质性的前提下分析纵向数据,阐明个体所属的不同形态的轨迹组,并揭示影响个体分组的主要因素.

    作者:彭琴;郭剑;王媛;芦文丽 刊期: 2018年第05期

  • ARTIVA在时间序列基因表达数据网络构建中的应用

    目的 探讨时间序列基因表达数据网络构建的ARTIVA模型与方法.方法 通过实例研究ARTIVA模型构建网络的效果.结果 实例分析表明,ARTIVA模型对时间序列数据具有良好的适应性,在具有3个时间点和9个时间点两种情况下,ARTIVA模型均能准确地模拟生物网络,并且能识别网络结构的动态变化过程.结论 ARTIVA模型适用于时间序列基因表达数据网络构建,具有较高的实用价值.

    作者:刘会娟;侯艳;李康 刊期: 2018年第05期

中国卫生统计杂志

中国卫生统计杂志

主管:中华人民共和国国家卫生和计划生育委员会

主办:中国卫生信息学会 中国医科大学