学术投稿

基于Logistic回归惩罚函数的疾病诊断

庄虹莉;李立婷;林雨婷;温永仙

关键词:
摘要:疾病诊断问题的实际是从高维的解释变量中筛选出比较重要的特征,辅助医疗人员进行疾病诊断,并且预测患者的危险状态,其本质也就是通过高维的解释变量进行分类的问题。已有大量学者将判别分析和Logistic回归应用到生物医学。比如田恒宇等[1]对胆总管结石的16种相关因素进行Logistic回归分析,建立相应的判别模型。然而随着时代的进步和高维数据的来临,传统的分类方法往往得不到预期的效果,国内大量的学者又对疾病诊断进行另一领域的研究。比如Inbarani等[2]基于粗糙集与粒子群优化相结合的方法,提出了用于疾病诊断关键特征识别的方法。梁丽军等[3]提出了结合弹性网和支持向量机算法的疾病诊断关键特征识别方法,该方法能够得到较高的分类精度。
中国卫生统计杂志相关文献
  • 候选基因关联研究的统计分析方法

    随着新一代测序技术的发展及全基因组关联研究(genome-wide association study,GWAS)策略的推广,复杂性疾病基因关联研究涉及的 SNP 位点逐渐增加[1],且资料收集的逐渐完善促使描述疾病结局相关的指标增多,使样本信息多元化[2]。

    作者:肖纯;史晓雯;刘芸良;张奇;刘艳 刊期: 2017年第01期

  • 基于加权秩和比法综合评价新疆艾滋病防治工作

    目的:查找防治工作中存在的问题,促进新疆艾滋病综合防治工作的良性发展。方法采用加权秩和比法对新疆乌鲁木齐市、伊犁地区、喀什地区、哈密地区2008-2010年艾滋病防治工作效果进行综合评价。结果伊犁地区2010年的WRSR值高为0.90,喀什地区2008年的WRSR值低为0.44。伊犁地区2010年AIDS综合防治效果好。结论加权秩和比法是一个内涵极为丰富的统计量,通过该方法发现新疆艾滋病防治工作中尚存在许多问题,需进一步改进。

    作者:李玉革;陈访贤;曹明芹;岳一姬;冯爱国;刘金宝 刊期: 2017年第01期

  • 高校本科生医学统计学教学现况及需求分析

    统计学是一门透过同质事物的变异性、揭示事物内在规律性和实质性的科学,确切地讲,是运用概率论和数理统计的基本原理和方法,结合医学实际来研究资料的收集、整理和推断的一门学科[1]。目前我国,医学统计学是许多专业本科生的必修课,该门课程对于学生在分析数据、阅读文献、撰写论文等实际应用中具有重要作用,但常常遇到许多学习和应用的困难。为深入了解高校本科生对医学统计学课程的认知、应用及需求情况,分析当前医学统计学教学存在的问题,提高大学生医学统计学教学效果和实际应用能力,我们对广州市三所高校的本科生进行了调查。

    作者:陈青山;蒋静;韩璐;罗旭;周亚敏;刘晓玲 刊期: 2017年第01期

  • 基于文本挖掘的临床带教评价分析

    目的:使用文本挖掘方法分析医学生对临床带教老师开放式文本评价数据,建立新的教学评价方案。方法对1084份实(见)习学生对临床带教老师主观描述性评价资料,根据统计软件R中Rwordseg包进行分词,把文字转化成可以量化的指标,设计算法和程序,建立教学评价指标,对临床带教工作进行评分。结果有效评价的字数呈现幂律分布特征,评价用词反映了学生对教学指导的倾向性。综合得分≥6.82,6.82>综合得分>6.13,及综合得分≤6.13分别表示高质量、中等质量和低质量的临床带教工作。结论采用文本挖掘方法可以科学、准确评价临床带教工作,为临床带教老师考核提出新的方法。

    作者:陈苗;刘超;庄俊玲;潘慧;叶葳;李航 刊期: 2017年第01期

  • 辽宁省父母生育观念及养育理念研究

    生育是人类繁衍的唯一方式,是多数人的选择。生育观念是指定的经济、社会、文化环境中形成的对生育现象的认知,是关于生育的意愿、价值、知识、行为等观点、看法与认识的总和,内容包括生育的需求、动机、意愿和偏好[1]。养育理念是指生育后将儿女抚养、教育成人的过程中父母所采取的观念。养育理念也随着经济、社会、文化条件的变化而变化;同时,生育和养育观念也受政策的影响。反之,生育观念的变化也影响着政策的制定与实施[2]。生育观念的研究兴起于20世纪80年代初,和中国计划生育工作的强化推广同步,引起了国内学者关注,并作出了大量研究与分析[3-6]。研究证明中国不同地区计划生育政策及其执行情况存在差异[7],在此背景下,本研究通过2010年中国家庭动态跟踪调查辽宁省的少儿数据,对辽宁省父母的生育和养育观念进行定量分析,探讨其中的规律与关联,并为今后相关政策的制定提供参考信息。

    作者:乌日乐;黄伟;关鹏;严洁;景汇泉 刊期: 2017年第01期

  • 基因组学数据的网络构建与分析方法

    基因组学数据具有超高维数、变量间作用关系复杂的特点,对其进行数据分析的方法研究面临巨大的挑战[1]。网络研究能够直观地反映出基因之间的相互作用关系,这不仅有助于特征标志物的筛选,增加筛选结果的可解释性,而且还能从分子水平阐述复杂的生物过程及各疾病的发病机制[1-2]。基因调控网络推断的本质是在不同影响因素条件下,通过测序得到各基因表达水平,利用各种方法和统计学指标,对不同基因表达的依赖关系进行衡量并排序,从而构建出潜在的基因调控网络,还原出网络的拓扑结构[3]。本文对近年新提出和发展的几种主要的网络分析方法做一综述。

    作者:王文杰;侯艳;李康 刊期: 2017年第01期

  • 某院1740例超长住院日患者影响因素分析

    目的:分析超长住院日患者的情况,为缩短平均住院日,提高医院经济和社会效益提供数据支持。方法将出院患者住院日的第99百分位数及以上定义为超长住院日,对2012年至2015年间1740例超长住院日患者的相关信息进行回顾性分析。结果超长住院日患者占同期出院人数的1.76%,占总住院日的12.8%,超长住院日患者在年龄、医疗付款方式、平均住院日、平均住院费用等方面与全部患者差异有统计学意义。科室分布前五位是放疗科、骨科、神经内科、化疗科、心内科,累计占比为61.54%,疾病排名前五的为影响健康状态与保健机构接触因素、循环系统、恶性肿瘤、损伤与中毒、呼吸系统疾病,累计占比77.06%。结论超长住院日患者对平均住院日影响巨大,对超长住院日患者采取有效的管理机制对缩短平均住院日,合理利用医疗资源有重要意义。

    作者:凌爱芳 刊期: 2017年第01期

  • 纵向有序数据的临床疗效评价方法应用研究

    目的:探讨临床疗效研究中纵向有序数据的评价方法。方法应用广义线性混合效应模型,固定效应解释总体水平上变量之间的相互影响程度,随机效应解释数据间的相关、过度离散、异质性等问题。结果在模型参数估计过程中,Gauss-Hermite积分和Quasi-Newton迭代算法克服了由二分类扩展至多分类导致的参数增加、似然函数复杂、计算量大等困难。结论纵向有序logistic模型可以准确地评价治疗方案的有效性,反映影响因素之间的关系并体现出个体之间的差异性,为临床疗效评价提供了科学的依据。

    作者:刘艳;李扬;刘罡;张育铭 刊期: 2017年第01期

  • 辽宁省乡镇干部职业紧张、心理资本和工作绩效的关系

    目的:对乡镇干部职业紧张和工作绩效的关系进行初步分析,验证心理资本在两者间的中介作用。方法采用横断面调查方法,整群抽取辽宁省凤城市、葫芦岛市建昌县28个乡镇1600名乡镇干部,采用国际上通用的量表:付出-回报失衡量表、心理资本量表、工作绩效量表对乡镇干部的职业紧张、心理资本和工作绩效的基本情况进行调查,运用SPSS 20.0和AMOS 22.0软件,建立结构方程模型。采用分层回归与Bootstrap方法进行数据分析。结果付出-回报失衡量表中回报、内在投入与工作绩效存在正相关关系,外在付出与工作绩效存在负相关关系。职业紧张通过心理资本间接影响工作绩效,发挥着作用,效应度为-0.168。结论回报与内在投入能正向预测工作绩效水平、外在付出能负向预测工作绩效水平,心理资本在职业紧张与工作绩效的关系中起中介作用。

    作者:卜泰来;马洪林 刊期: 2017年第01期

  • 2011-2015年重庆市卫生资源配置公平性分析

    目的:对重庆市2011-2015年卫生资源配置的公平性进行分析,提出相应的对策建议。方法对重庆卫生资源配置变化情况进行一般统计描述;利用泰尔指数法分析重庆卫生资源配置的公平性。结果卫生资源人均占有量逐年增加,地区差异明显;卫生资源配置公平性的变化趋势不同,人力资源配置的公平性相对较差;功能区间资源配置不公平问题日渐突出,都市功能核心区内部差异相对明显。结论继续加大对渝东南等偏远地区政策支持和财政投入力度,监督区域卫生资源配置规划的贯彻落实情况;增加注册护士供给数量并均衡配置;降低都市功能核心区不公平程度。

    作者:刘小利;许小兰;周乐明;吴开明 刊期: 2017年第01期

  • 昆山市居民自杀死亡的流行趋势和疾病负担分析

    目的:研究昆山市1987-2014年居民自杀死亡流行趋势和疾病负担,为昆山市预防自杀死亡提供科学理论依据。方法采用标化死亡率、潜在减寿年数(PYLL)、年度变化百分比(APC)等指标对昆山市1987-2014年居民自杀死亡监测资料进行分析。结果1987-2014年昆山市自杀粗死亡率为9.46/10万,标化死亡率8.15/10万,自杀死亡率呈下降趋势,年度变化百分比(APCs)10.24%。自杀死亡的平均减寿年数(AYLL)27.65岁。65岁以上年龄组男性自杀死亡率高于女性,女性自杀死亡在15~34岁和65岁以上年龄组有两个高峰,15~34岁年龄组自杀死亡居女性死因第一位。结论1987-2014年昆山市自杀死亡模式已发生变化,政府和社会应将老年人和15~34年龄组女性作为预防自杀的重点人群。

    作者:秦威;胡文斌;仝岚;张婷 刊期: 2017年第01期

  • 某院2006-2015年住院死亡病例统计分析

    目的:分析我院2006-2015年住院死亡病人的构成,了解其特点和变化规律。方法运用ICD-10对住院死亡患者的出院诊断进行分类,利用SPSS19.0进行数据整理和分析。结果2006-2015年间,住院病人的病死率为1.22%,男性与女性患者的死亡性别比为2.4:1,各年龄组中10~组死亡人数所占构成比为1.7%,为各组低,50~组死亡人数所占构成比为19.8%,为各组高。前三位死因分别为损伤和中毒、循环系统疾病、恶性肿瘤。结论医院要加强创伤外科和重症监护室的建设,提高外伤患者的抢救成功率,政府应加强对民众的交通安全意识教育,规范交通行为,普及健康教育,提高防病治病意识。

    作者:于蓓 刊期: 2017年第01期

  • 2004-2010年中国消化道恶性肿瘤死亡率趋势分析

    目的:描述分析2004-2010年中国消化道恶性肿瘤死亡率水平及其变化趋势。方法从全国疾病监测系统死因监测数据集中选择食管癌、胃癌、结直肠癌的死亡数据,分别计算标化死亡率性别比、城乡比和年度变化百分比,并应用Joinpoint回归模型对标化死亡率的变化趋势进行分析。结果消化道恶性肿瘤死亡率的性别比均大于1,结直肠癌城乡比大于1,食管癌、胃癌小于1。总体上看,东部城市女性的胃癌(APC=-6.3%)和食管癌(APC=-9.1%)死亡率呈现下降趋势。结论2004-2010年全国消化道恶性肿瘤死亡率男性高于女性。农村的胃癌和食管癌死亡率高于城市,城市的结直肠癌死亡率高于农村。监测地区胃癌和食管癌的年龄标化死亡率呈现下降趋势。

    作者:吴想军;李子巍;屈若祎;周宝森 刊期: 2017年第01期

  • 基于Logistic回归惩罚函数的疾病诊断

    疾病诊断问题的实际是从高维的解释变量中筛选出比较重要的特征,辅助医疗人员进行疾病诊断,并且预测患者的危险状态,其本质也就是通过高维的解释变量进行分类的问题。已有大量学者将判别分析和Logistic回归应用到生物医学。比如田恒宇等[1]对胆总管结石的16种相关因素进行Logistic回归分析,建立相应的判别模型。然而随着时代的进步和高维数据的来临,传统的分类方法往往得不到预期的效果,国内大量的学者又对疾病诊断进行另一领域的研究。比如Inbarani等[2]基于粗糙集与粒子群优化相结合的方法,提出了用于疾病诊断关键特征识别的方法。梁丽军等[3]提出了结合弹性网和支持向量机算法的疾病诊断关键特征识别方法,该方法能够得到较高的分类精度。

    作者:庄虹莉;李立婷;林雨婷;温永仙 刊期: 2017年第01期

  • 密切值法视角对四川省医疗机构发展概况的综合分析

    全国基层医疗卫生机构收入下降明显,且门诊和住院收入已出现“双下降”,所提供的医疗服务比例逐年减少,三级医院则突飞猛进[1]。从服务量或经济收入得出的结论虽难免偏颇,但也能反映一定的实际情况。2016年,某些省市率先颁发公立医院综合改革方案,并提出“到2017年,一级及以下医疗机构就诊比例明显提高”[2]。在此背景下,笔者以密切值法对新医改以来四川省三类医疗机构运营状况进行综合比较,求出密切值,以期分析出各类医疗机构在新医改后的变化情况,并结合访谈探讨其原因,为基层医疗机构的进一步发展和分级诊疗制度建设建言献策。

    作者:张瑞华;孙渤星;何思长;赵大仁 刊期: 2017年第01期

  • 样本量估计及其在nQuery+nTerim和SAS软件上的实现--均数比较(八)

    本文为南方医科大学陈平雁教授团队2012年发表于本刊的《样本量估计及其在nQuery+nTerim和SAS软件上的实现—均数比较》系列文章[1-7]的后续部分。前期主要考虑了连续变量和等级变量的情形,本文将介绍离散变量,即两组泊松分布及负二项分布均数比较的样本量估计方法。文中的公式和实例序号均依照前期的系列文章顺序编排,以保持原有结构。

    作者:詹志颖;曹颖姝;段重阳;陈平雁 刊期: 2017年第01期

  • 甘肃省某三甲医院2型糖尿病患者发病前家族饮食结构调查分析

    目的:对某院内分泌科就诊的2型糖尿病患者发病前家族饮食结构进行调查分析,为当地居民健康饮食教育提供科学依据。方法随机选取2015年3月1日到2016年3月1日来甘肃省中医院内分泌科就诊,年龄在40~65岁的汉族2型糖尿病患者148例作为病例组;同时随机选取甘肃省中医学校直系亲属无2型糖尿病的汉族学生169人作为对照组(直系家属年龄在40~65岁之间);采用食物频率调查表对两组人员家族饮食结构进行调查。结果病例组家族每日人均热量摄入高于对照组(P<0.05);病例组家族每日人均摄入脂肪、蛋白质高于对照组(P<0.05)。结论当地2型糖尿病患者发病前家族饮食结构不合理,建议合理饮食,预防糖尿病的发生。

    作者:史晓伟;张定华;丁玉芬;王一强 刊期: 2017年第01期

  • 两组率同为100%或0%时率差置信区间估计的SAS实现

    目的:通过SAS编程实现两组事件发生率均为0%或100%时率差置信区间的估计。方法针对事件发生率均为100%或0%时率差置信区间的估计问题,采用SAS9.4编程,使置信区间估计的Miettinen Nurminen法、New-combe-Wilson法及校正Newcombe-Wilson法等三种方法得以实现,并通过实例进行说明。结果所编程序实现了三种方法的置信区间估计,便于专业和非专业人员使用。实例中两组样本量分别为59,56,结果两组事件发生率均为100%,三种方法的95%置信区间:Miettinen Nurminen法为[-6.16%,6.47%];Newcombe法为[-6.11%,6.42%];校正Newcombe法为[-7.62%,8.00%]。结论本文所提供的SAS宏程序可以简便地实现两组事件发生率均为0%或100%时三种常用的率差置信区间的估计方法。

    作者:黄耀华;唐欣然;段重阳;陈平雁 刊期: 2017年第01期

  • 不同分子分型乳腺癌术后复发转移风险及其时间分布规律

    目的:探讨不同分子分型乳腺癌术后复发转移风险及其时间分布规律。方法收集345名2004年1月1日-2012年12月31日于厦门市某三甲医院手术治疗的女性乳腺癌患者资料,根据免疫组化结果将乳腺癌分成Luminal A、Luminal B、BCL和Her-2/neu 4种分子分型,随访其复发转移情况,末次随访时间为2014年9月30日。用寿命表法估计不同分子分型乳腺癌患者未复发转移生存率和复发转移风险,同时用log-rank检验进行组间比较,进一步地,采用Cox回归分析其复发转移的影响因素。结果术后总复发转移率为36.5%,Her-2/neu、Luminal B、Luminal A和BCL型患者的复发转移率依次为47.89%、35.26%、32.10%和29.73%。单因素和多因素结果均表明,分子分型影响患者术后复发转移(P<0.05),Her-2/neu型患者的术后复发转移风险高,是Luminal A的2.27倍(P<0.05)。BCL型的术后复发转移风险呈三峰分布,其余均为双峰型;Her-2/neu和BCL型首次高峰出现在术后第1年,Luminal A和Luminal B型则为第2年;4种分型的另一高峰为术后第5年;BCL型在术后第3年还出现一次小高峰。结论分子分型对乳腺癌术后复发转移具有预测价值,且不同分子分型患者术后复发转移风险不同,其时间分布呈一定规律性。

    作者:刘玲玲;林芳;韩耀风;安汉祥;方亚 刊期: 2017年第01期

  • 某职业人群各系统疾病患病状况及其对应分析

    目的:通过对应分析探讨某镍生产企业职业人群特征与系统疾病的关系,为职业防护和职业相关疾病预防提供依据。方法随机抽取某镍生产企业职工共9379人,采用观察性流行病学方法获取职业人群基本信息和健康资料并进行对应分析。结果该人群前三位疾病为消化系统疾病(36.69%)、呼吸系统疾病(21.19%)和循环系统疾病(19.84%);女性与良性肿瘤、泌尿生殖系统慢性疾病存在相关性;男性、吸烟指数>400、饮酒指数>500、BMI>24.9与患循环系统慢性疾病存在相关性;年龄51~65岁与呼吸系统慢性疾病的发生存在相关性。结论该职业人群防护的主要慢性疾病为消化系统、呼吸系统和循环系统慢性疾病,吸烟、饮酒和超重是影响男性健康的主要因素,女性患泌尿生殖系统慢性疾病与妇科肿瘤的发生相关。

    作者:刘建正;李娟生;蒲宏全;任晓卫;李海燕;岳娜娜;夏婷 刊期: 2017年第01期

中国卫生统计杂志

中国卫生统计杂志

主管:中华人民共和国国家卫生和计划生育委员会

主办:中国卫生信息学会 中国医科大学