Part 1:TRIPOD-AI规范的说明
随着医疗科技的不断进步,预测模型在医疗领域的应用主要分为两大类:诊断模型(预测某种特定健康状况的存在概率)与预后模型(预测某个特定结果是否会在未来发生)。可靠的预测模型对于临床决策具有重要意义,例如为患者推荐进一步检查、预测评估疾病恶化风险及治疗效果等。
在医学领域,关于预测模型的研究文献资料极为丰富,涵盖了常见的多种疾病。这些研究文献形成了庞大的预测模型资源库。以新冠肺炎为例,在疫情爆发的12个月内,就有至少731篇预测模型研究论文发表。此外,随着技术的飞速进步,人工智能AI算法已开始广泛取代传统的回归算法,在医学预测模型的研究中扮演着越来越重要的角色。
AI预测模型在医学应用中遇到的挑战
尽管医学界对利用人工智能开发预测模型充满热情,AI预测模型在医学应用中仍面临诸多挑战。
透明度不足:大量AI预测模型的研究未能充分详尽地报告模型的开发与评估过程,这使得评估模型的可靠性和实用性变得困难。
再现性不佳:由于缺乏详细的报告和数据共享,其他研究者很难复现或验证这些研究的结果。
信任度不足:AI模型在临床实践中的有效性和可靠性尚不明确,导致医生和医疗机构可能对在临床决策中采纳它们持谨慎态度。
伦理和数据安全问题:研究中未充分阐述数据处理和保护措施,这可能引发数据隐私和安全的担忧。
即使不涉及临床应用,若AI预测模型的开发报告缺乏必要的透明度和完整性,可能掩盖研究设计、数据收集或建模过程中的不足,影响审稿人对研究设计和方法的深入评估,从而降低AI预测模型研究在学术期刊中的接受度。
为了更好的帮助研究者应对以上挑战,TRIPOD+AI规范(Transparent Reporting of a multivariable prediction model for Individual Prognosis Or Diagnosis + Artificial Intelligence)应运而生。
TRIPOD+AI的主要内容
“TRIPOD+AI statement: updated guidance for reporting clinical prediction models that use regression or machine learning methods”于2024年4月发表在医学领域权威期刊BMJ上(IF=105.7),详细描述了TRIPOD+AI的制定过程及其主要内容。

TRIPOD+AI提供了一份包含27项检查的清单,旨在帮助医学AI预测模型研究者避免建模过程中的常见缺陷,如偏倚风险,并提高模型的可靠性和可用性。该清单涵盖AI预测模型开发过程中每个关键步骤,确保研究者在报告中遵循规定的方法,增强报告的透明度与完整性。这不仅有助于研究的可评估性,还提升了研究的认可度。
TRIPOD+AI框架具有广泛的适用性,能够灵活应用于不同类型的医学AI预测模型研究。该框架不受以下因素的影响:
算法选择:传统回归模型,机器学习或者AI算法
模型应用场景:诊断、预后、风险监测,筛查等模型
研究病种:如糖尿病或癌症
预测因子目标:如基于脂质组学预测癌症风险,或通过实验室检查诊断VTE
TRIPOD+AI的发展历史
2024年发布的TRIPOD+AI规范是在2015年TRIPOD规范的基础上发展而来。2015版TRIPOD规范为医学预测模型的开发或验证提供了核心报告建议,主要关注传统的回归模型算法。然而,随着机器学习(ML)和人工智能(AI)算法在医学预测模型中的广泛应用,原有的TRIPOD规范已难以满足当前的研究需求。
鉴于此,TRIPOD+AI规范应运而生。相比2015版,2024版TRIPOD+AI提供了更为全面的框架,适应不断发展的医学预测模型研究,不仅涵盖传统回归算法,还扩展到ML和AI建模方法,全面支持当前的医学研究方法。
此外,TRIPOD+AI还特别强调了AI预测模型的公平性、公众参与和开放科学,提供了详细的指导,进一步提升了研究的透明度和评估性,同时为医学预测模型的伦理问题和数据安全提供了明确的标准。
TRIPOD+AI的制定过程
TRIPOD+AI的制定由全球顶尖大学及医学期刊的专家共同参与,包括牛津大学、哈佛公共卫生学院、麻省理工学院,以及《BMJ》、《The Lancet》和《JAMA》等权威期刊。制定过程采用了系统评审、德尔菲专家调查法和共识会议等结构化方法,确保指南的全面性和适用性。

总结与展望
TRIPOD+AI为医学AI预测模型的开发提供了权威指导。遵循TRIPOD+AI规范能够确保AI研究的可靠性和可用性,并提高其被认可和信任的可能性。焕一生物致力于推动组学与前沿AI技术在医学研究和临床中的应用,充分挖掘海量数据中的医学洞见并转化为研究成果。同时,我们也注重确保这些前沿技术的应用符合医学研究规范,确保产出的研究成果既可靠有效,又能被广泛认可。
Part 2:Q&A
Q1:TRIPOD+AI应该如何使用?
TRIPOD+AI规范包含一份27项检查项目的清单。研究者可以逐项对照清单,确保在AI建模过程中对关键要素进行了充分考虑、处理并进行了相应的汇报。
Q2:TRIPOD+AI和2015 TRIPOD怎么配合使用?
官方建议TRIPOD+AI可以完全替代2015版TRIPOD,2015版TRIPOD不再适用。
Q3:如果不打算在JAMA、BMJ、Lancet等期刊发表研究,是否还需要遵循TRIPOD+AI规范?
并非如此。TRIPOD+AI规范旨在为AI建模提供最基本的核心报告建议(minimum reporting recommendations)。大多数内容并不高不可攀,而是对确保AI模型的可靠性和有效性具有实际意义。因此,即使研究成果不打算投递至JAMA、BMJ、Lancet等顶刊,TRIPOD+AI规范仍然具有重要的参考价值。
Q4: 是否还有其他相关规范指导AI在医学研究中的应用?
除了TRIPOD+AI,行业内还有CLAIM、SPIRIT AI、CONSORT AI等其他规范。它们的共同目标是确保AI相关研究的有效性、可靠性以及报告的透明性和完整性,但侧重点各有不同。例如,CLAIM针对医学影像数据的AI建模提供了具体的指导。
Part3: TRIPOD-AI的27项内容详细说明
1. 标题
清楚地标明研究是开发还是评估一个多变量预测模型,目标人群和预测结果。通过清晰的标题,让读者能够快速了解研究的主要内容和目标。明确目标人群和预测结果有助于读者快速评估研究的相关性和适用性。
示例:“开发一种基于AI的多变量模型预测糖尿病患者的五年死亡率:一项队列研究。”
2. 摘要
请参阅TRIPOD+AI摘要检查清单。摘要应概括研究的背景、目标、方法、结果和结论。提供简明的研究概述,帮助读者快速理解研究的主要发现和意义。摘要如果不全面或不清晰,可能会使读者无法快速掌握研究的核心内容,从而降低研究的影响力。
3. 背景
3.1 解释医疗背景(包括是诊断模型和预后模型)及开发或评估预测模型的基本原理,参考现有模型
在撰写研究时,说明其医疗背景及诊断或预后的性质,有助于读者理解研究的应用场景和重要性。提供开发或评估模型的动机,展示研究的必要性和独特性。通过引用现有模型,读者能够理解该研究在现有研究中的位置及其改进点或创新性。
示例:“本研究旨在开发一种新的多变量预测模型,用于预测急性心肌梗死患者的长期预后。现有的模型虽然能提供一定的预测能力,但在特定人群中的准确性和适用性仍有待提高。”
3.2 说明模型的目标人群及其在临床中的预期应用,明确其受众(如医生、患者、公众)
明确模型的目标人群和用途,能够增加其临床应用价值。如果目标人群和用途不明确,可能会限制模型的应用范围,减少其实际影响力。
示例:“该模型旨在帮助肿瘤科医生识别高风险乳腺癌患者,这些患者可能需要更密集的筛查。”
3.3 描述社会人口群体间已知的健康不平等现象
描述这些不平等现象可以帮助研究人员在开发或评估预测模型时考虑这些因素,进而提高模型的公平性和适用性。如果忽略这些不平等,可能导致模型在某些群体中的效果不佳,甚至加剧健康不平等问题。
示例:“在本研究中,我们注意到不同种族、性别和收入水平的糖尿病患者在长期血糖控制效果上存在显著差异。
5. 数据
5.1 分别描述开发和评估数据集的数据来源,使用理由以及数据的代表性
例如,随机试验、队列研究、常规护理或登记数据。详细说明数据来源有助于读者理解数据的质量和模型的适用范围。
示例:“本研究的开发数据集来源于一项大型随机对照试验,包括5000名心脏病患者的数据。选择这项试验的数据是因为其具有高质量和详细的临床变量记录。评估数据集则来源于国家心脏病登记数据库,包含2万名患者的日常护理数据,能够提供真实世界的验证。两组数据都具有广泛的代表性,涵盖了不同年龄、性别和种族的患者,有助于提高模型的普遍适用性。”
5.2 明确说明参与者数据的收集日期
明确说明参与者数据的收集日期,包括参与者招募的开始和结束日期。如果适用,还应包括随访结束日期。提供这些时间点的信息,有助于读者了解研究的时间框架,评估数据的时效性和相关性。
示例:“本研究的开发数据集包含从2010年1月到2015年12月期间招募的5000名心脏病患者的数据,随访截止到2020年12月。评估数据集的数据收集时间为2016年1月至2021年12月,随访结束日期为2023年12月。”
6. 参与对象
6.1 明确说明研究环境的关键要素
例如,初级护理、二级护理、普通人群,包括中心的数量和地点。详细描述研究环境有助于读者理解研究是在什么样的医疗或社会背景下进行的。
示例:“本研究在初级护理环境中进行,涉及全国范围内的50个医疗中心。这些中心分布在10个不同的省份,包括城市和农村地区,覆盖了广泛的社会人口群体。这种多中心设置有助于提高研究结果的代表性和普遍适用性。”
6.2 描述研究参与者的资格标准
明确参与者的资格标准有助于读者了解研究对象的选择过程,确保研究的科学性和结果的可信度。
示例:“本研究的参与者需符合以下资格标准:年龄在40至75岁之间;被诊断为2型糖尿病至少一年;未患有严重的并发症如终末期肾病或晚期癌症;能够提供知情同意。排除标准包括:怀孕或哺乳期女性;过去六个月内参与其他干预性研究;有严重精神疾病或无法完成随访的情况。”
6.3 提供参与者所接受的任何治疗的详细信息,以及在模型开发或评估过程中如何处理这些治疗信息
治疗信息的报告有助于评估治疗对模型预测的潜在影响,减少偏倚。
示例:“在本研究中,参与者接受的治疗包括常规的糖尿病管理,如口服降糖药、胰岛素注射和饮食控制。在模型开发过程中,这些治疗信息被作为潜在的影响因素进行记录和调整。具体来说,我们在模型中纳入了不同类型治疗的分类变量,并在评估过程中分析了这些变量对预测结果的影响。此外,所有参与者在研究期间的治疗方案保持一致,以减少因治疗差异带来的偏倚。”
7. 数据准备
描述任何数据预处理和质量检查,包括这些过程在不同社会人口群体中的一致性。详细说明数据预处理和质量检查步骤有助于读者理解数据的可靠性和一致性,确保研究结果的可信度。
示例:“在本研究中,我们进行了以下数据预处理和质量检查步骤:首先,对所有缺失数据进行了多重插补,以确保数据的完整性。其次,删除了所有明显的异常值,并进行了逻辑一致性检查。为了确保不同社会人口群体的数据质量一致,我们对各个群体分别进行了同样的预处理步骤。此外,还进行了数据标准化处理,以便不同变量可以在同一尺度上进行分析。所有这些步骤都在相同的标准下进行,以确保数据处理的一致性和结果的公正性。”
8. 结果
8.1 明确定义所预测的结果和时间范围
包括如何及何时评估,选择该结果的理由,以及结果评估方法在不同社会人口群体中的一致性。详细描述这些内容有助于读者理解研究目的、设计和结果的适用性。
示例:“本研究的预测结果是心脏病患者的五年生存率。结果评估的方法是通过定期随访患者的生存状态来确定,随访时间每年一次,共持续五年。选择这一结果的理由是心脏病的长期生存率是衡量患者预后的重要指标,能够反映治疗效果和患者健康状况。为了确保结果评估方法在不同社会人口群体中的一致性,我们对所有患者进行了相同的随访和数据收集程序,包括使用统一的问卷和标准化的生存状态记录方法。”
8.2 如果结果评估需要主观解释,请描述结果评估者的资格和人口统计特征
详细说明评估者的背景有助于理解评估过程的公正性和一致性。
示例:“在本研究中,结果评估需要对患者健康状况进行主观解释。评估者包括5名具有10年以上心脏病临床经验的资深心脏病专家。这些评估者接受了统一的培训,以确保他们对健康状况的解释一致。此外,评估团队中有3名男性和2名女性,年龄在40至60岁之间,涵盖不同的社会人口背景,以保证评估过程的多样性和全面性。”
8.3 报告用于对预测结果进行盲法评估的措施
说明这些措施有助于读者理解研究的科学性和结果的可靠性。
示例:“在本研究中,为了确保结果评估的公正性,我们采取了盲法评估措施。具体而言,所有结果评估者在进行评估时,均未被告知患者的具体治疗方案或任何其他可能影响结果的背景信息。此外,评估者只接触到经过匿名处理的患者数据,以进一步减少主观偏见的可能性。这些盲法评估措施确保了结果评估过程的独立性和公正性。”
9. 预测变量
9.1 描述初始预测变量的选择依据,以及在建模前是否进行了任何预筛选
例如基于文献、参考现有模型或利用所有可用特征等,详细阐述这些内容,有助于读者理解模型构建过程的合理性和科学依据。
示例:“在本研究中,初始预测变量的选择基于以下几个方面:首先,参考了大量相关文献,确定了在心脏病预后中具有重要作用的变量。其次,借鉴了先前成功的预测模型,选择了一些在这些模型中表现出显著预测能力的变量。最后,考虑了所有可用的临床变量,并在初始建模前进行了变量预选择。预选择过程包括对变量的单变量分析,筛选出那些在统计上显著且具有临床意义的变量,以确保模型的预测性能和稳定性。”
9.2 明确定义所有预测变量,包括它们的测量方法和时间
例如任何针对结果和其他预测变量进行盲法评估的措施,详细描述有助于读者理解模型构建过程及数据的可靠性。
示例:“在本研究中,所有预测变量均经过严格定义和测量:
年龄:在患者首次就诊时记录。
性别:在患者首次就诊时记录。
血压:使用标准血压计在患者每次随访时测量。
血糖水平:通过静脉抽血在每次随访时测量,采用标准生化分析方法。
吸烟史:通过患者自我报告,在首次就诊时和每次随访时更新。
胆固醇水平:通过静脉抽血在每次随访时测量,采用标准生化分析方法。
为了确保预测变量的评估过程公正,所有测量均由经过培训的医疗专业人员进行,并且测量者对患者的最终结果和其他预测变量的情况进行了盲法处理。这些措施确保了数据的独立性和一致性。”
9.3 如果预测变量的测量需要主观解释,请描述评估者的资格及其人口统计特征,以帮助理解评估过程的可靠性和一致性
示例:“在本研究中,部分预测变量的测量需要主观解释,例如心理健康评分。以下是评估者的资格和人口统计特征:
评估者资格:所有评估者均为心理学专业毕业,并具有至少5年的临床经验。此外,他们都经过了专门的培训,确保对心理健康评分的一致理解和应用。
人口统计特征:评估团队包括4名心理学家,其中2名男性和2名女性,年龄在30至50岁之间,涵盖不同的社会人口背景。这种多样性有助于减少评估过程中可能存在的偏见,并提高结果的可靠性和普遍性。
通过这些措施,我们确保了主观解释的预测变量在测量过程中的一致性和可靠性。”
10. 样本大小
解释如何确定研究样本大小(分别针对开发和评估阶段),并证明样本大小足以回答研究问题。需包括任何样本量计算的细节。详细描述样本大小的计算方法和理由,确保样本规模足以保证结果的统计学意义。样本量不足可能导致研究结果的不稳定和不可靠。
示例:“为确保至少80%的把握度检测到显著的预测变量效应,经计算结果需要1200名患者。”
11. 缺失数据
描述缺失数据的处理方法,并说明省略任何数据的原因。这有助于读者理解数据处理的完整性及其对结果的影响。
示例:“在本研究中,我们采用以下方法处理缺失数据:
多重插补:对于随机缺失的数据,使用多重插补法进行填补。该方法通过生成多个可能的值集合来处理缺失数据,从而减少偏差并保留数据的完整性。
完整案例分析:对于一些关键变量缺失的数据,我们选择进行完整案例分析,即只保留那些所有关键变量均完整的案例。这种方法有助于确保结果的稳健性,但可能会导致样本量的减少。
缺失数据原因:由于技术故障或患者未能按时到访,部分随访数据缺失。对于这些情况,我们记录并分析了缺失数据的模式,以确保缺失数据不会对研究结果产生系统性偏差。
通过这些方法,我们努力最大程度地减少缺失数据对研究结果的影响,确保数据处理的透明性和结果的可靠性。”
12. 分析方法
12.1 说明数据在分析中的使用方式(如用于模型开发和性能评估),并说明是否进行了数据分区,以及是否考虑了样本量的要求
这有助于读者理解研究设计和模型开发的过程,确保结果的可信性和科学性。
示例:“在本研究中,我们对数据进行了以下处理和使用:
为了开发和评估模型性能,我们将数据分为训练集(70%)和测试集(30%)。训练集用于模型的开发,测试集用于模型的独立评估。
12.2 根据模型类型,描述预测变量的处理方式
例如功能形式、重新缩放、变换或标准化。这有助于读者理解模型开发过程中预测变量的处理方法,确保结果的科学性和解释性。
示例:“在本研究中,根据所使用的模型类型,我们对预测变量进行了以下处理:
为了避免不同量级的预测变量对模型训练造成不平衡,我们对所有预测变量进行了重新缩放处理。具体来说,我们使用了最小-最大缩放法,将每个变量缩放到[0, 1]范围内。
12.3 指定模型类型、选择该模型的理由,说明模型构建的步骤,包括超参数调优方法及内部验证过程
这有助于读者理解模型选择和构建过程的合理性和科学性。
示例:本研究选择了随机森林模型。随机森林模型具有强大的非线性建模能力和对缺失数据的鲁棒性,并且在处理高维数据时表现优异。其集成多个决策树的方法有助于提高模型的准确性和稳定性。使用网格搜索法对模型的超参数(如树的数量、最大深度等)进行调优,以寻找最佳参数组合。
12.4 说明是否以及如何处理和量化模型参数和性能在不同集群(如医院、国家)中的异质性
这有助于读者理解模型在不同背景下的适用性和稳定性。
示例:在本研究中,我们考虑了模型参数值和模型性能在不同集群(例如,不同医院)中的异质性,并采取了以下方法进行处理和量化:我们将数据按照医院进行分层,并在每个医院内单独构建模型。这种方法有助于评估每个医院内模型参数值和性能的异质性。
12.5 指定用于评估模型性能的指标和图表,并说明选择它们的理由(如区分度、校准度、临床效用),以及用于比较多个模型的方法
这有助于读者理解模型性能评估的方法和结果的可靠性。
示例:
用ROC曲线及其下面积(AUC)评估模型区分能力(Discrimination)
用校准曲线和Brier评分(Brier Score)评估校准度(Calibration)
12.6 描述模型评估过程中是否进行了任何更新(如重新校准),无论是针对总体还是特定群体
这有助于读者理解模型调整过程和改进方法,确保模型在不同背景下的适用性和准确性。
示例:在初始评估中,我们发现模型的校准曲线偏离了理想的45度对角线,尤其是在高预测概率范围内。为了改进模型的校准能力,我们进行了总体重新校准。具体方法包括使用Platt Scaling和Isotonic Regression对模型输出的预测概率进行调整,以更好地匹配实际结果。
我们分析了不同社会人口群体(如年龄、性别、种族)的模型性能,发现某些群体的预测准确性显著低于总体水平。为了解决这些问题,我们对这些特定群体进行了分层校准。具体方法是对每个群体分别进行校准调整,确保模型在不同群体中的一致性和公平性。
12.7 对于模型评估,描述如何计算模型预测值
例如公式、代码、对象、应用程序接口。这有助于读者理解模型预测的实现过程,确保结果的可重复性和透明性。
示例:
模型预测的计算方法:
对于线性回归模型,预测值使用以下公式计算:

13. 样本均衡
如果使用了类别不平衡方法,请说明其原因以及具体操作过程,并描述任何后续重新校准模型或模型预测的方法。这些详细信息有助于读者理解处理类别不平衡的必要性和相关的技术手段,确保模型的公平性和预测的准确性。
示例:在本研究中,目标变量存在显著的类别不平衡问题。例如,患病患者仅占所有样本的5%。为了避免类别不平衡对模型训练和预测性能的不利影响,我们采用了以下处理方法:在训练过程中调整类别权重,可以让模型对少数类别给予更多关注,从而提高少数类别的预测准确性。在处理类别不平衡后,模型的预测概率可能会偏离实际概率分布,因此我们重新校准以提高预测概率的准确性。
14. 公平性
描述用于解决模型公平性的任何方法及其理由。详细说明这些内容有助于读者理解研究在公平性方面所做的努力,确保模型对不同群体的公正性。
示例:在训练数据集中,不同社会人口群体(如性别、种族等)的比例可能不均衡,这会导致模型对某些群体的预测不准确。我们使用了分层抽样技术,确保训练集中的每个社会人口群体的样本比例与总体数据集一致。
15. 模型输出
指定预测模型的输出(例如,概率或分类)。提供分类的详细信息和理由,以及阈值的确定方法。详细阐述这些内容可以帮助读者理解模型输出的性质和使用方法,确保结果的合理性和适用性。
示例:本研究的预测模型输出为概率值和分类结果。概率值表示某个事件发生的可能性,而分类结果根据设定的阈值将概率值转换为具体的类别标签。
16. 训练集和验证集
识别开发数据和评估数据在医疗环境、资格标准、结果和预测变量方面的任何差异。详细说明这些内容有助于读者确保模型评估结果的可靠性和科学性。
示例:开发数据来自于多个初级护理和二级护理机构,涵盖了不同层级的医疗服务;评估数据主要来自三级护理机构,这些机构通常处理更复杂和严重的病例。因此,评估数据中的患者群体可能病情更为严重。
17. 伦理申请
列出批准该研究的机构研究委员会或伦理委员会,并描述参与者知情同意或伦理委员会对知情同意的豁免。通过详细说明伦理审查和知情同意过程,确保了研究的伦理合规性和参与者的权利,增加了透明度。
示例:“本研究获得了[XX大学医学伦理委员会]的批准(批准编号:[2023-XYZ-001])。所有参与者在研究开始前均签署了知情同意书,知情同意书详细说明了研究的目的、程序、风险和收益,以及参与者的权利。此外,对于来自国家心脏病登记数据库的匿名化历史数据,伦理委员会批准了知情同意豁免,因为这些数据无法追溯到个人,并且仅用于本研究目的。”
18. 开放科学
18.1 资金: 提供本研究的资金来源和资助者的角色
示例:“本研究由XXX基金委员会(资助编号:NSFC-2023-XYZ-001)资助。资助者参与了研究的总体设计和方案的初步制定,并提供了数据收集的资源和技术支持,但并未直接参与数据的实际收集过程。所有数据分析和结果解释均由研究团队独立完成,以确保结果的客观性和独立性。论文的撰写和发表由研究团队全权负责,资助者仅提供了部分出版费用的支持,未对论文内容进行任何干预。”
18.2 利益冲突
声明所有作者的利益冲突和财务披露情况,确保研究的透明性和可信性,增强读者对研究结果的信任。
示例:本研究的所有作者均进行了利益冲突和财务披露声明。具体声明如下:
XX:
利益冲突:无
财务披露:XX没有任何与本研究相关的财务利益或其他潜在的利益冲突。
YY:
利益冲突:无
财务披露:YY在过去三年内曾接受过来自某制药公司的研究资助,但该资助与本研究无关,不构成利益冲突。
18.3 研究方案
指明研究协议的位置,或说明未准备协议,以确保研究的透明性和可重复性,便于读者和其他研究者了解和验证研究过程。
示例:本研究的研究方案已公开,并可以通过以下方式获取:
在线访问:研究方案可以在[平台名称]平台上获取,链接如下:[链接地址]
18.4 研究注册
提供研究的注册信息,包括注册名称和注册编号,或明确声明未注册研究,以确保研究的透明性和合规性,便于读者和其他研究者了解和验证研究过程。
18.5 数据共享
提供研究数据的可用性信息,或明确声明未共享数据,以确保研究的透明性和合规性,便于读者和其他研究者了解和验证研究过程。
示例:为了促进科学研究的透明性和可重复性,本研究的数据已上传至Open Science Framework (OSF) 平台,读者可以通过以下链接访问数据集:http://osf.io/abcd1234。数据集的DOI为:10.1234/osf.io/abcd1234。数据集包括原始数据、处理后的数据以及数据字典,详细说明了每个变量的定义和测量方法。数据集是开放访问的,任何研究者均可通过上述链接下载和使用。若需获取更多信息或有特定的数据请求,请联系对应作者:[作者邮箱]。使用数据集时,请引用本研究,以确保研究者的贡献得到认可。”
18.5 代码共享
提供分析代码的可用性信息,或明确声明未共享代码,以确保研究的透明性和合规性,便于读者和其他研究者了解和验证研究过程。
示例:“为了促进科学研究的透明性和可重复性,本研究的分析代码已上传至GitHub,读者可以通过以下链接访问代码库:http://github.com/username/repository。代码库包含所有用于数据预处理、模型训练、模型评估和结果可视化的代码文件。代码库还包括README文件,详细说明了代码的使用方法和依赖环境的安装步骤。代码库是开放访问的,任何研究者均可通过上述链接下载和使用。若需获取更多信息或有特定的代码请求,请联系对应作者:[作者邮箱]。使用代码时,请引用本研究,以确保研究者的贡献得到认可。”
19. 患者和公众参与
提供在研究设计、实施、报告、解释或传播期间任何患者和公众参与的详细信息,或声明无参与。确保研究过程的透明性和包容性,便于读者和其他研究者了解和评价研究的社会影响。
示例:“在本研究的设计、实施、报告、解释或传播过程中,没有患者和公众的参与。”
20. 参与者
20.1 描述参与者在研究中的流程,包括有结果和没有结果的参与者人数,以及(如果适用)后续时间的摘要
确保研究过程的透明性和数据的完整性,便于读者和其他研究者了解和评价研究结果的可靠性。
示例:“在本研究中,我们招募了1000名参与者。经过筛选后,150人因不符合资格标准被排除,50人未签署知情同意书,最终800人被纳入研究。参与者被随机分为预测模型开发组(560人)和评估组(240人)。在5年的随访期间,开发组中有140人发生了心血管事件,420人无事件;评估组中有60人发生了心血管事件,180人无事件。总共有750人完成了随访,50人失访。”
20.2 描述参与者在研究中的流程,包括有结果和没有结果的参与者人数,以及(如果适用)后续时间的摘要
确保研究过程的透明性和数据的完整性,便于读者和其他研究者了解和评价研究结果的可靠性。
示例:在本研究中,我们纳入了800名参与者,平均年龄为60.2岁,52%为男性。开发组和评估组的参与者在关键特征(如年龄、性别、收缩压、血糖水平、吸烟史和总胆固醇)上的分布较为均衡。平均随访时间为5年,随访过程中缺失数据量为5%。在开发组中,140人发生了心血管事件,而在评估组中,60人发生了心血管事件。按性别分组分析显示,男性和女性在年龄、收缩压、血糖水平、吸烟史和接受的治疗方面存在一定差异,但整体分布较为相似。
20.3 通过模型评估,展示重要预测变量(包括人口统计特征、预测变量和结果)在开发数据和评估数据中的分布比较
此举旨在确保模型在不同数据集上的一致性和适用性。如果开发数据与评估数据中的重要预测变量分布不一致,可能会导致模型在评估数据上的表现不如在开发数据上,从而影响模型的可靠性和外部有效性。
示例:“在模型评估中,我们比较了开发数据和评估数据中重要预测变量的分布。结果显示,两组数据在年龄、性别、收缩压、血糖水平、吸烟史和总胆固醇方面的分布相对一致。开发组中有140人发生了心血管事件,而评估组中有60人发生了心血管事件。这些比较结果表明,开发数据和评估数据在重要预测变量和结果分布上具有良好的一致性。”
21. 明确每次分析中的参与者数量和结果事件数
例如,用于模型开发、超参数调优和模型评估。通过详细说明这些内容,有助于读者了解每个分析步骤的数据基础,确保研究过程的透明性和结果的可信性。
示例:“在本研究中,我们对不同阶段的分析分别进行了详细统计。在模型开发阶段,共有560名参与者,其中140人发生了心血管事件。在超参数调优阶段,我们使用了开发数据的80%(448名参与者,112个结果事件)进行交叉验证和参数选择。最后,在模型评估阶段,我们使用了240名独立参与者的数据,其中60人发生了心血管事件。通过这样的数据分配和分析,我们确保了模型开发、调优和评估过程中的数据基础和结果的可靠性。”
22. 模型规格
提供完整预测模型的详细信息(例如,公式、代码、对象、应用程序接口),以便在新个体中进行预测,并允许第三方进行评估和实施,包括任何访问或重用的限制(例如,免费提供或专有)。通过详细说明这些内容,有助于读者理解和应用研究成果,确保模型的可重复性和实际应用价值。
示例:预测模型公式:

23. 性能评估
23.1 报告模型性能估计值及其置信区间,包括任何关键子群体
例如,社会人口统计学群体。考虑使用图表来辅助展示。这将有助于提供模型性能的全面评估,并展示模型在不同子群体中的一致性和可靠性。
示例:“在本研究中,我们报告了模型的性能估计值及其95%的置信区间,包括对关键子群体(例如,不同年龄段、性别和种族)的分析。以下是详细结果和相关图表展示:
AUC(受试者工作特征曲线下面积):0.85(95% CI:0.82, 0.88)
准确率:0.80(95% CI:0.77, 0.83)
灵敏度:0.78(95% CI:0.74, 0.82)
特异度:0.82(95% CI:0.79, 0.85)
按年龄段分组的模型性能:
年龄 < 50:
AUC:0.87(95% CI:0.83, 0.91)
准确率:0.81(95% CI:0.77, 0.85)
年龄 ≥ 50:
AUC:0.83(95% CI:0.78, 0.88)
准确率:0.79(95% CI:0.74, 0.84)
23.2 报告模型性能在不同集群间的异质性结果
如果进行了异质性分析,请报告模型性能在不同集群间的异质性结果。详细说明这些结果将帮助读者理解模型在不同背景和集群中的一致性和适用性。
示例:“在本研究中,我们分析了模型性能在不同集群(例如,不同医院)间的异质性。以下是详细结果和相关分析:
集群间AUC比较:
医院A:
AUC:0.85(95% CI:0.81, 0.89)
准确率:0.80(95% CI:0.76, 0.84)
医院B:
AUC:0.86(95% CI:0.82, 0.90)
准确率:0.81(95% CI:0.77, 0.85)
医院C:
AUC:0.84(95% CI:0.80, 0.88)
准确率:0.79(95% CI:0.75, 0.83)
2. 异质性量化:
使用I²统计量和Cochran's Q检验评估集群间的异质性:
I²统计量:18%
Cochran's Q检验:p = 0.25(表明集群间的异质性不显著)
24. 模型升级
报告模型更新的结果,包括更新后的模型和随后的性能评估。这将帮助读者理解模型改进的具体过程及其效果,并展示模型在不同数据或情境下的适应性和准确性。
示例:在本研究中,我们对初始模型进行了更新,以提高其预测性能和适应性。更新后的模型进行了重新校准。
25. 结果解读
对主要结果进行整体解释,包括在目标和先前研究背景下的公平性问题。这将帮助读者全面理解研究的贡献和局限性,展示研究结果的实际应用价值和科学意义。
示例:在本研究中,我们开发并验证了一种新的多变量预测模型,用于评估心脏病患者的五年生存率。结果显示,模型在总体上具有较高的预测性能,AUC为0.87(95% CI:0.84, 0.90),准确率为0.82(95% CI:0.79, 0.85)。在不同年龄段、性别和种族群体中的性能评估结果表明,模型在各个子群体中的表现较为一致。
然而,我们也注意到了一些公平性问题。虽然模型在总体上表现良好,但在某些特定群体中的预测性能略有差异。例如,模型在女性群体中的AUC为0.88,而在男性群体中为0.83。这可能是由于数据中的某些偏差或特定群体的特征差异所导致的。与先前研究相比,我们的模型在整体性能和公平性方面均有所改进,但仍需进一步研究和优化,以确保在不同社会人口群体中的公正性。
26. 研究限制
讨论研究中的任何局限性(例如,样本不具代表性、样本量、过拟合、缺失数据)及其对偏差、统计不确定性和普遍性的影响。
示例:本研究的局限性包括样本量较小,可能导致结果的统计不确定性增加;样本不具代表性,限制了结果的普遍性;数据缺失的问题可能引入偏差;以及可能存在的过拟合问题,这可能影响模型在其他样本中的表现。
27. 模型可用性
27.1 描述在实施预测模型时,如何评估和处理质量差或不可用的输入数据
例如,预测变量的值。确保模型在面对不完美的数据时仍能保持其有效性和准确性。
示例:在实施预测模型时,应首先评估输入数据的质量,通过统计分析识别缺失或异常值。对于质量差的数据,可以考虑使用数据插补方法或剔除不可靠的数据点。对于不可用的数据,可以通过多重插补或使用替代变量的方法进行处理,从而确保模型的稳定性和准确性。
27.2 明确用户在处理输入数据或使用模型时是否需要进行交互,以及所需的专业水平
确保模型在实际应用中的可操作性和有效性,避免因不当使用而导致错误的预测结果。
示例:在使用此预测模型时,用户需要对输入数据进行预处理和验证,以确保数据质量。此外,用户还需要在模型运行过程中监控模型输出并进行必要的调整。因此,建议用户具备一定的数据处理和统计分析的基本知识,以便能够正确地操作和理解模型的输出结果。
27.3 讨论未来研究的下一步工作,特别是关于模型的适用性和普遍性
此举旨在为研究的延续和发展提供指导,并确保模型能够在更广泛的背景下应用。
示例:未来的研究应集中在扩大样本量和多样性,以提高模型的普遍性。此外,还应在不同的环境和人群中验证模型的性能,以评估其适用性。进一步的研究也可以探索改进模型的方法,例如采用更先进的算法或增加更多的预测变量,以提升模型的准确性和稳健性。通过这些努力,可以使模型在实际应用中更加可靠和广泛适用。
关于焕一生物
焕一生物(AliveX Biotech)是中国领先的AI+多组学技术平台公司,拥有端到端干湿实验闭环的多组学实验平台以及AI生物计算平台,包括时空单细胞组学,靶向蛋白组学、代谢/脂质组学等高质量生物检测分析技术以及多组学整合分析、AI建模、知识图谱、疾病药理机制建模等计算技术高效赋能研发。焕一生物拥有国际领先的跨学科院士教授以及产业专家团队,为科研以及药企合作伙伴提供定制化的科研解决方案,包括疾病与药物的机制研究,生物标志物和靶点的发现与评估,患者分层,多模态AI预测,临床试验方案与精准诊疗方案的优化等。焕一生物已服务上百家临床及科研院所和国际大型药企。公司拥有核心技术自主知识产权数十项,并获得国家级高新技术企业认证,美国病理学会CAP认证,ISO9001认证。

收藏
登录后参与评论