学术投稿

多次交叉验证对PLS DA模型的影响研究

曲思杨;张秋菊;王文佶;谢彪;孙琳;高兵;刘美娜

关键词:交叉验证, PLSDA, 高维数据
摘要:目的:比较一次交叉验证和多次交叉验证对PLSDA优模型的影响,探讨在个体正确分组和少数个体错分时,多次交叉验证对PLSDA优模型稳定性的影响。方法打乱数据集中个体顺序进行多次交叉验证,通过一次交叉验证和多次交叉验证的方法对模拟数据和真实数据进行分析,使用成分数和MSEP等参数值来评价模型变异性和稳定性。结果模拟数据结果,仅进行1次交叉验证结果成分数为3,MSEP值为0.3792;在不打乱数据标签时,5000次交叉验证结果中,成分数范围是2~6,MSEP值的范围0.2569~0.5794;打乱5%的标签时,5000次交叉验证结果中,成分数范围是1~8,MSEP值的范围0.2061~0.6463;真实数据结果,进行1次交叉验证结果成分数为4,MSEP值为0.1376;10000次交叉验证成分数范围是4~10,MSEP范围是0.0802~0.3761。结论一次交叉验证结果不稳定,在应用PLSDA建模时,多次交叉验证在少量个体错分时能够获得稳定模型,建议使用多次交叉验证确保PLSDA模型稳定性。
中国卫生统计杂志相关文献
  • 产后保健服务利用的受益归属分析

    目的:对孕产妇产后保健服务利用进行受益归属分析,了解产后保健服务的受益人群和受益程度。方法运用多阶段随机抽样的方法,调查产后42天到6个月的产妇,共计调查2021名产妇,其中有效调查问卷1954份。运用Kakwani指数、利用需要比等方法进行受益归属评价。结果产后保健各服务项目的Kakwani指数均为负值,说明低经济收入组孕产妇受益更多;利用需要比显示,农村孕产妇、低文化程度孕产妇以及低年龄和高年龄孕产妇利用受益程度低。结论加强低经济收入组孕产妇的经济政策支持,更加关注农村孕产妇,提高其受益程度,同时应提高低文化程度及低龄和高龄孕产妇对产后保健服务的利用率,加大其受益程度。

    作者:徐东;于贞杰;李向云;于芳;汤敏 刊期: 2017年第01期

  • 多次交叉验证对PLS DA模型的影响研究

    目的:比较一次交叉验证和多次交叉验证对PLSDA优模型的影响,探讨在个体正确分组和少数个体错分时,多次交叉验证对PLSDA优模型稳定性的影响。方法打乱数据集中个体顺序进行多次交叉验证,通过一次交叉验证和多次交叉验证的方法对模拟数据和真实数据进行分析,使用成分数和MSEP等参数值来评价模型变异性和稳定性。结果模拟数据结果,仅进行1次交叉验证结果成分数为3,MSEP值为0.3792;在不打乱数据标签时,5000次交叉验证结果中,成分数范围是2~6,MSEP值的范围0.2569~0.5794;打乱5%的标签时,5000次交叉验证结果中,成分数范围是1~8,MSEP值的范围0.2061~0.6463;真实数据结果,进行1次交叉验证结果成分数为4,MSEP值为0.1376;10000次交叉验证成分数范围是4~10,MSEP范围是0.0802~0.3761。结论一次交叉验证结果不稳定,在应用PLSDA建模时,多次交叉验证在少量个体错分时能够获得稳定模型,建议使用多次交叉验证确保PLSDA模型稳定性。

    作者:曲思杨;张秋菊;王文佶;谢彪;孙琳;高兵;刘美娜 刊期: 2017年第01期

  • 医学统计学课堂教学的多元化改革实践

    与其他医学基础课程相比,医学统计学具有如下特点:一方面,其概念和理论非常抽象,涉及较多的公式和计算,对医学生来讲难以理解和掌握;另一方面,医学统计学理论方法又是任何医学实践活动、医学科研工作以及进行医学知识更新必不可少的工具,统计学素养甚至可以影响一个医学工作者的职业生涯。这种特点使得医学统计学教学中存在非常突出的矛盾,即医学生对这门课程强烈的学习需求和难以克服的畏难情绪之间的矛盾。在医学教育阶段,如何化解这种矛盾,提高医学统计学的教学效果,成为医学统计学教学研究工作者的重要任务。

    作者:刘静;刘言训;薛付忠;李秀君;王淑康 刊期: 2017年第01期

  • 2011-2015年重庆市卫生资源配置公平性分析

    目的:对重庆市2011-2015年卫生资源配置的公平性进行分析,提出相应的对策建议。方法对重庆卫生资源配置变化情况进行一般统计描述;利用泰尔指数法分析重庆卫生资源配置的公平性。结果卫生资源人均占有量逐年增加,地区差异明显;卫生资源配置公平性的变化趋势不同,人力资源配置的公平性相对较差;功能区间资源配置不公平问题日渐突出,都市功能核心区内部差异相对明显。结论继续加大对渝东南等偏远地区政策支持和财政投入力度,监督区域卫生资源配置规划的贯彻落实情况;增加注册护士供给数量并均衡配置;降低都市功能核心区不公平程度。

    作者:刘小利;许小兰;周乐明;吴开明 刊期: 2017年第01期

  • 基因组学数据的网络构建与分析方法

    基因组学数据具有超高维数、变量间作用关系复杂的特点,对其进行数据分析的方法研究面临巨大的挑战[1]。网络研究能够直观地反映出基因之间的相互作用关系,这不仅有助于特征标志物的筛选,增加筛选结果的可解释性,而且还能从分子水平阐述复杂的生物过程及各疾病的发病机制[1-2]。基因调控网络推断的本质是在不同影响因素条件下,通过测序得到各基因表达水平,利用各种方法和统计学指标,对不同基因表达的依赖关系进行衡量并排序,从而构建出潜在的基因调控网络,还原出网络的拓扑结构[3]。本文对近年新提出和发展的几种主要的网络分析方法做一综述。

    作者:王文杰;侯艳;李康 刊期: 2017年第01期

  • 基于加权秩和比法综合评价新疆艾滋病防治工作

    目的:查找防治工作中存在的问题,促进新疆艾滋病综合防治工作的良性发展。方法采用加权秩和比法对新疆乌鲁木齐市、伊犁地区、喀什地区、哈密地区2008-2010年艾滋病防治工作效果进行综合评价。结果伊犁地区2010年的WRSR值高为0.90,喀什地区2008年的WRSR值低为0.44。伊犁地区2010年AIDS综合防治效果好。结论加权秩和比法是一个内涵极为丰富的统计量,通过该方法发现新疆艾滋病防治工作中尚存在许多问题,需进一步改进。

    作者:李玉革;陈访贤;曹明芹;岳一姬;冯爱国;刘金宝 刊期: 2017年第01期

  • 某院1740例超长住院日患者影响因素分析

    目的:分析超长住院日患者的情况,为缩短平均住院日,提高医院经济和社会效益提供数据支持。方法将出院患者住院日的第99百分位数及以上定义为超长住院日,对2012年至2015年间1740例超长住院日患者的相关信息进行回顾性分析。结果超长住院日患者占同期出院人数的1.76%,占总住院日的12.8%,超长住院日患者在年龄、医疗付款方式、平均住院日、平均住院费用等方面与全部患者差异有统计学意义。科室分布前五位是放疗科、骨科、神经内科、化疗科、心内科,累计占比为61.54%,疾病排名前五的为影响健康状态与保健机构接触因素、循环系统、恶性肿瘤、损伤与中毒、呼吸系统疾病,累计占比77.06%。结论超长住院日患者对平均住院日影响巨大,对超长住院日患者采取有效的管理机制对缩短平均住院日,合理利用医疗资源有重要意义。

    作者:凌爱芳 刊期: 2017年第01期

  • 两组率同为100%或0%时率差置信区间估计的SAS实现

    目的:通过SAS编程实现两组事件发生率均为0%或100%时率差置信区间的估计。方法针对事件发生率均为100%或0%时率差置信区间的估计问题,采用SAS9.4编程,使置信区间估计的Miettinen Nurminen法、New-combe-Wilson法及校正Newcombe-Wilson法等三种方法得以实现,并通过实例进行说明。结果所编程序实现了三种方法的置信区间估计,便于专业和非专业人员使用。实例中两组样本量分别为59,56,结果两组事件发生率均为100%,三种方法的95%置信区间:Miettinen Nurminen法为[-6.16%,6.47%];Newcombe法为[-6.11%,6.42%];校正Newcombe法为[-7.62%,8.00%]。结论本文所提供的SAS宏程序可以简便地实现两组事件发生率均为0%或100%时三种常用的率差置信区间的估计方法。

    作者:黄耀华;唐欣然;段重阳;陈平雁 刊期: 2017年第01期

  • 山东省基本公共卫生服务资源配置评价

    目的:分析山东省基本公共卫生服务资源配置状况。方法采用熵权法、TOPSIS法和系统聚类法对山东省17个地级市的基本公共卫生服务资源配置进行综合评价。结果熵权法计算的6项指标的权重分别为0.2526、0.0745、0.0776、0.4764、0.0421、0.0767;TOPSIS综合排序排名前三的依次为潍坊、济南、青岛;系统聚类将17个地级市分为四类:优秀(潍坊),良好(济南、青岛、烟台、威海),中等(淄博、枣庄、东营、济宁、泰安、滨州、莱芜、临沂),较差(日照、德州、聊城、菏泽)。结论山东省基本公共卫生服务资源配置存在区域差异,基层卫生人员及床位配置不足;应改善区域基本公共卫生服务资源配置差异;构建基本公共卫生服务资源多元供给机制;建立基本公共卫生服务资源均等化绩效考评机制。

    作者:张慧;于贞杰 刊期: 2017年第01期

  • 大学生传统性文化和性心理的相关性研究

    目的:探讨中国传统性文化和大学生性心理的相关性。方法采用分层整群随机抽样的方法,利用大学生性心理问卷和传统性文化问卷调查某高校大一至大五年级大学生,共计约1240名。结果性别在传统性文化和性心理的各个维度得分及总分之间差异有统计学意义,除了性调控维度,其余得分均为男生高于女生;性欲望、性调控和性认知三方面存在明显的年级差异;Pearson相关分析显示除女性传统性教育以外,传统性文化得分与性心理得分皆呈正相关关系(P<0.01)。多元线性回归分析表明,传统性观念、传统性习俗、传统性知识是影响男性性心理得分的三个主要因素;传统性观念、传统性知识、传统性教育是影响女性性心理得分的主要因素。结论学校、家长、社会应有针对性地加强不同性别、不同年级大学生传统性文化知识的教育,这对促进大学生性心理健康发展至关重要。

    作者:文静;叶运莉;冯亚娟;汤军;刘娅 刊期: 2017年第01期

  • 混合效应模型中的方差成分检验

    在很多科学问题中需要在混合效应模型框架下对随机效应方差成分(暂记为τ2)进行假设检验[1-6],也即检验H0:τ2=0。除直接科学兴趣外,许多间接医学问题也能转化为对方差成分的检验。例如,为判断在惩罚样条回归中是参数模型还是非参数模型更合适, Claeskens[7]首先建立混合效应模型,将模型选择问题转化为对随机效应方差成分是否等于零的假设检验问题,后通过限制性似然比检验H0:τ2=0。其他研究者也用同样的方法处理过类似问题[8-12]。然而,方差成分为非负参数,对方差成分的假设检验是非标准的:在H0下τ2位于参数空间边缘。由于这种限制,常用的渐近χ2无效分布对似然比统计量不再成立[1-3,8]。混合效应模型中的方差成分检验吸引了广泛研究兴趣[7-8,13-19]。

    作者:曾平;赵杨;陈峰 刊期: 2017年第01期

  • 辽宁省麻疹监测系统质量评价分析

    目的:综合评价辽宁省2009-2014年麻疹监测质量。方法逼近理想解排序法(technique for order preference by similarity to an ideal solution,TOPSIS)结合秩和比法(rank-sum ratio,RSR)对辽宁省2009-2014年麻疹监测系统的8项指标进行纵向评价和横向评价。结果2012年之前,辽宁省麻疹监测系统总体运转质量不断提高,2012年之后,运转质量有所下降,2011年麻疹监测质量好;盘锦、大连、朝阳、沈阳的麻疹监测质量为优秀,铁岭、辽阳、鞍山、营口、丹东、抚顺、阜新、本溪的监测质量良好,锦州、葫芦岛的监测质量为一般。结论运用加权TOPSIS法结合RSR法,能比单一指标评价更加客观、合理地反映麻疹监测系统运转情况,可在麻疹监测综合评价中运用。

    作者:安晓慧;方兴;姚文清;韩悦 刊期: 2017年第01期

  • 昭通不同性别农村居民两周患病的影响因素分析

    目的:分析昭通不同性别农村居民两周患病的影响因素,为不同性别农村居民健康政策的制定提供参考。方法资料收集采用多阶段随机抽样进行入户问卷调查,为消除年龄对不同指标的两周患病率的影响,对两周患病率进行了年龄的标化。用χ2检验和logistic回归分析不同性别居民两周患病的影响因素。结果调查对象的两周患病率为6.9%。女性两周患病率(8.0%)高于男性(6.0%)。男女性不同年龄组的两周患病率都呈现两头高,中间低的趋势。女性文化程度越高,两周患病率越低。青年组、中年组、低收入组、汉族、文盲组、三种婚姻状况女性两周患病率均高于男性。结论女性两周患病率高于男性。昭通居民两周患病的影响因素为婚姻状况、民族、文化程度年龄、家庭人口数、性别和职业。

    作者:何利平;李晓梅;喻箴;陈莹;孟琼;王杰 刊期: 2017年第01期

  • 基于Logistic回归惩罚函数的疾病诊断

    疾病诊断问题的实际是从高维的解释变量中筛选出比较重要的特征,辅助医疗人员进行疾病诊断,并且预测患者的危险状态,其本质也就是通过高维的解释变量进行分类的问题。已有大量学者将判别分析和Logistic回归应用到生物医学。比如田恒宇等[1]对胆总管结石的16种相关因素进行Logistic回归分析,建立相应的判别模型。然而随着时代的进步和高维数据的来临,传统的分类方法往往得不到预期的效果,国内大量的学者又对疾病诊断进行另一领域的研究。比如Inbarani等[2]基于粗糙集与粒子群优化相结合的方法,提出了用于疾病诊断关键特征识别的方法。梁丽军等[3]提出了结合弹性网和支持向量机算法的疾病诊断关键特征识别方法,该方法能够得到较高的分类精度。

    作者:庄虹莉;李立婷;林雨婷;温永仙 刊期: 2017年第01期

  • 我国妇女生育水平变化及未来人口预测

    目的:基于我国第三次到第六次人口普查资料,分析我国妇女生育水平变化情况并对未来人口进行预测。方法使用妇女年龄别生育率及一般生育率差别分解法了解我国妇女生育水平变化,并用人口移算法对未来人口进行预测。结果我国2010年总和生育率为1.18;1981-2010年我国育龄妇女一般生育率下降主要由妇女年龄别生育率变化引起;预测的2015年、2020年和2025年我国总人口数分别为1363073354、1376309669和1371499613。结论基于2010年人口普查资料,我国已经进入极低生育率水平,并在2025年我国人口将出现负增长。

    作者:王永斌;马石头;王焕;袁聚祥 刊期: 2017年第01期

  • 我国儿童b型流感嗜血杆菌(Hib)疫苗接种率的meta分析

    目的:综合评价我国b型流感嗜血杆菌(Hib)疫苗接种率。方法检索中国期刊全文数据库(CNKI)、维普数据库(VIP)、万方数据库、中国生物医学文献数据库(CBM)、PubMed和ScienceDirect,收集发表年限为2006年至2016年的有关b型流感嗜血杆菌疫苗接种率的相关文献,对符合纳入标准的文献提取数据后进行meta分析。结果共纳入29篇文献,我国儿童b型流感嗜血杆菌(Hib)疫苗接种率的合并值为55.9%(95%CI=52.3%~59.4%);东部、中西部地区儿童Hib疫苗接种率分别为62.9%和48.1%;居住在城市的儿童Hib疫苗接种率为53.9%,农村儿童为41.9%;户籍为本地儿童的Hib疫苗接种率为60%,流动儿童为54.3%;采用非随机抽样方法进行统计的接种率高于采用随机抽样方法统计的接种率。结论我国流感嗜血杆菌(Hib)疫苗接种率偏低,不同地区间接种率差异较大。

    作者:李文敏;尹刚;孔玉梅;汪琼 刊期: 2017年第01期

  • 样本量估计及其在nQuery+nTerim和SAS软件上的实现--均数比较(八)

    本文为南方医科大学陈平雁教授团队2012年发表于本刊的《样本量估计及其在nQuery+nTerim和SAS软件上的实现—均数比较》系列文章[1-7]的后续部分。前期主要考虑了连续变量和等级变量的情形,本文将介绍离散变量,即两组泊松分布及负二项分布均数比较的样本量估计方法。文中的公式和实例序号均依照前期的系列文章顺序编排,以保持原有结构。

    作者:詹志颖;曹颖姝;段重阳;陈平雁 刊期: 2017年第01期

  • 公立医院患者满意度指标体系构建及多种评价方法比较研究

    目的:立足公立医院患者满意度评价问题,构建指标体系,以多种方法建立评价模型并由案例比较验证。方法以Delphi法从三个维度筛选指标,以AHP法、优序图和熵权法计算组合权重。线性求和、TOPSIS和灰色关联法从不同维度对各医院排序并比较差异;制定等级与经典域作为标准,物元分析法以特征值作为各维度评价依据。结果指标体系有信效度,集结算法结果相关性有统计学意义,物元分析与传统方法有区别。结论患者满意度指标体系和多种方法适于患者满意度评价问题,理论方法有类似问题借鉴意义。

    作者:李望晨;吴学谦;张利平;崔庆霞 刊期: 2017年第01期

  • 解析美国统计学会关于统计学检验和P值的声明

    2014年2月,一位美国数学和统计学教授在世界上大的统计专业学会--美国统计学会(American Statistical Association,ASA)论坛上抛出关于P值的议题:“为什么大学和研究生院在教P=005,答案是因为科学界和杂志社编辑在使用;为什么人们一直在使用P=005,答案是因为大学和研究生院在教”。为了澄清对统计学检验和P值的误解和误用,ASA理事会决定组成工作组起草一份声明,声明的对象是研究者、实际工作者和杂志社编辑等非统计专业人员。2015年10月专家工作组讨论两天后初步达成共识,随后的三个月,经过专家、ASA理事会以及目标受众的审议,2016年1月29日ASA执行委员会通过了该声明,随后在The American Statistician在线发布[1],在业界引起很大反响。国内知名统计学家中山大学方积乾教授亲自笔译了该声明及其背景[2-3]。本文通过回顾P值相关理论,进一步解读ASA声明的内容,旨在使非统计专业人员避免对P值的误解和误用。

    作者:余红梅 刊期: 2017年第01期

  • OpenBUGS软件介绍及应用

    OpenBUGS软件是在WinBUGS软件基础上研制的一款实现贝叶斯统计推断的工具软件,它是以MC-MC(Markov Chain Monte Carlo)方法为基础,将所有未知或不确定的参数都视为随机变量,并对此种类型的概率模型进行求解[1]。它广泛地应用于医学、经济学、生命科学、心理学、社会科学等多个领域[1-4]。目前已经更新到OpenBUGS323版本,可以从其官网(http://wwwopenbugsnet/w/Downloads)上免费下载使用[5]。但是目前国内关于这款软件的应用报道比较少,对软件的基本情况也没有一个详细的介绍。因此,本文主要对该软件的功能和具体操作做一个简单的汇总和介绍,希望有兴趣的研究者能较快掌握这个软件,并起到抛砖引玉的作用。

    作者:张继巍;高文龙;秦天燕;刘建正;李学朝;拉扎提木拉提;李娟生 刊期: 2017年第01期

中国卫生统计杂志

中国卫生统计杂志

主管:中华人民共和国国家卫生和计划生育委员会

主办:中国卫生信息学会 中国医科大学