本文旨在详细解读《人工智能辅助检测医疗器械(软件)临床评价注册审查指导原则》的核心内容,通过逐步分析指导原则中的关键要素,包括临床试验设计、研究对象、评价指标、临床参考标准构建、样本量估算与统计分析等,为注册申请人及技术审评人员提供深入的理解和参考。
随着人工智能技术的飞速发展,其在医疗领域的应用日益广泛,尤其在辅助检测方面展现出巨大潜力。为规范此类产品的临床评价,国家药品监督管理局发布了《人工智能辅助检测医疗器械(软件)临床评价注册审查指导原则》。本文将对该指导原则中临床试验的部分进行深入全面解读,以期为相关行业提供参考。
临床试验的主要目的是评价人工智能辅助检测医疗器械(以下简称“AI辅助检测产品”)在预期适用范围下的诊断学性能,包括其辅助检测准确度、敏感度、特异度、可用性及安全性[1]。通过临床试验,可以验证AI辅助检测产品是否能够有效提升医师的病变检测能力,减少漏诊和误诊的发生。
根据产品特征及临床诊疗实际,AI辅助检测产品的临床试验设计类型主要包括随机平行对照、交叉自身对照及多阅片者多数据样本(MRMC)试验设计等[1]。
2.1 随机平行对照:试验组一般为医师在软件的辅助下完成异常/病变的检测,对照组一般为临床医师独立的异常/病变的检测,比较二者的检测准确度。随机平行对照设计是临床试验中应用最广泛的设计方法之一,可应用于评价医学影像AI器械安全性和有效性的临床试验设计中。在随机平行对照设计中,对照应采用目标疾病病灶诊断或检出的“金标准”或已上市的同类诊断器械,如肺结节辅助检测产品、骨折CT影像辅助检测产品等[2]。
2.2 交叉自身对照:同一组医师在不同阶段分别使用AI辅助和独立检测,通过洗脱期消除记忆效应。
自身对照设计是医学影像AI器械试验的主要设计类型。交叉自身对照设计时应考虑设置一定长度的洗脱期,以消除不同诊断方法残留效应的影响。在医学影像AI器械临床试验中,“交叉”一般具体指对同一受试者影像样本在不同试验阶段采用不同阅片方式进行诊断;设定一定长度的洗脱期(一般不少于4周)是为了洗脱阅片者对影像样本的记忆,确保阅片者对同一受试者影像样本的两次诊断结果互不影响。
2.3 MRMC(多阅片者多病例)设计:多名阅片者在有或无AI辅助的条件下对同一组样本进行检测,通过统计方法分析各阅片者的诊断差异。
多阅片者多病例(MRMC)研究设计的主要思路是分别选取合适数量有代表性的患者(包括金标准确诊待研究疾病的患者与非患者)和阅片者作为样本,每个患者分别接受某个或多个诊断试验,然后由阅片者独立盲法的对患者关于试验的影像检测结果进行解释[3]。在对诊断结果进行分析和评价时,这种设计可以将阅片者自身以及不同阅片者之间的各种效应考虑进去,最大限度减少阅片者之间的偏倚。
阅片者数量需要与患者案例数量相平衡,有专家建议:任何 MRMC 研究都建议至少有5名阅片者[4]。
目前,国外针对MRMC设计的文献或研究中最常用统计分析方法有 OR ( Obuchowski-Rockette)法和 DBM (Dorfman-Berbaum-Metz)法两种[5-6];DBMH法与ORH法作为MRMC研究中有效的分析方法,相较于传统ROC曲线分析法具有非常明显的优势。
采用MRMC研究设计的临床试验设计分类基本分为以下3种: 交叉设计全部阅片者对每一种阅片模式下所有病例的影像数据给出阅片结果。 MRMC设计通常采用完全交叉设计,即所有阅片者在每一种阅片模式下,对所有受试者影像样本给出对应的诊断结果(如图2所示)。在对影像样本进行随机后,一组阅片者先采用人工阅片,后采用AI辅助人工阅片的方式阅读所有影像样本;另一组阅片者先采用AI辅助人工阅片,后采用人工阅片的方式阅读所有影像样本。 一般要求两组阅片人数相等,也可对阅片者进行随机分组。相比其他MRMC设计类型,完全交叉的MRMC设计具有最大统计检验效能的特点,且研究结论能同时外推到阅片者和目标疾病总体人群中。为避免同一受试者影像样本多次阅片产生的偏倚,一般建议洗脱期至少为4周[2]。 有病例均提供所有阅片模式下的影像数据,部分阅片者只针对某一种阅片模式下的影像数据给出阅片结果,其余阅片者对另一种阅片模式下的影像数据给出阅片结果。 部分病例提供某一种阅片模式下的影像数据,其余病例提供另一种阅片模式下的影像数据,全部阅片者均对所有病例的影像数据给出阅片结果。 其中,应用最多最常见的是①全交叉配对设计,这种设计需要的样本量相比②③非配对设计少[7]。 图2. 完全交叉的MRMC设计
研究对象主要为预期人群的影像学样本,需基于明确的入选和排除标准收集。为了保证临床试验结果的可靠性,选取研究对象时,申请人需考虑如下措施:
1)是纳入数据样本独立于申报产品或前代产品开发所用数据集,如申报产品或前代产品的训练集、测试集;
2)是采用临床已有数据进行研究时,需基于明确且严格的入排标准和临床试验计划,连续收集过往某段时间内、特定医疗机构内患者影像学数据,避免主观挑选病例;
3)是考虑阳性样本中,目标疾病的疾病谱分布(如分型、分期)合理性;
4)是通常情况下,需避免在一项临床试验中同时入组同一患者同一目标部位的多组样本数据;
5)是临床已有数据收集时,需尽可能全面的收集与疾病相关的信息[1]。
主要评价指标应综合考虑产品设计特征,一般包括灵敏度、特异度、ROC曲线或其衍生指标等。临床试验应设计优效性检验,如ROC曲线下面积(AUC)的优效设计,或在特异度非劣效前提下检验灵敏度的优效性[1]。
医学影像AI器械临床试验的评价指标多为诊断试验相关评价指标。首先明确器械测量结果的类型,定量结果主要用于测量图像中靶病灶的相关参数,如数量、长度、体积等;定性结果主要根据图像分析结果对疾病、诊断、预后进行分类,如是否患病、是否需要转诊、是否需要干预等。此外,还需要确定器械测量的结果是病例水平还是病灶水平。不同水平及不同结果性质各有适用的评价指标。
对于定性结果,在诊断试验有“金标准”时,主要评价指标优先考虑灵敏度和特异度。如一项用于特发性肺纤维化和慢性阻塞性肺病的深度学习诊断算法的临床试验(NCT05318599),使用了灵敏度、特异度作为主要评价指标。
同样地,一项基于人工智能的非酒精性脂肪性肝病的诊断临床试验(NCT04099147)也使用灵敏度、特异度作为主要评价指标。
其次可考虑受试者工作特征曲线下面积(AUC),能够综合所有可能诊断界值下的灵敏度和特异度,从整体水平比较不同产品或不同阅片模式下的诊断效能[2]。
临床参考标准的构建方法有两种:一是以临床已确认结果为标准,结合影像学检查、病史、实验室检查及长期随访结果综合判定;二是通过高年资医师组成的阅片专家组综合意见作为标准[1]。
对于人工智能辅助检测产品,可采用专家组意见作为临床参考标准,通常可选择高年资医师组成的阅片专家组综合意见为临床参考标准,阅片专家组的成员需独立于“试验和对照组的阅片研究者”,并需要明确:1).专家数量;2).专家经验及专业水平;3).决策机制(如遵循多数意见、背靠背第三人仲裁等);4).专家决策时所依据的信息(如图像上是否有标记,是否还提供了病史或其他检查结果等);5).判定所依据的临床准则(如临床指南、诊疗规范、专家共识等)。
样本量估算需综合考虑试验设计、主要评价指标及统计学要求。平行对照试验样本量可参考《医疗器械临床试验设计指导原则》。MRMC设计需明确分析方法、受试医师数量、检验水准及预计效应值等[1]。统计分析中应对主要指标进行点估计及95%置信区间估计,通过优效/非劣效比较判断产品是否满足临床应用需求。
采用MRMC的试验设计样本量计算流程:
1)需首先明确具体的分析方法,如Obuchowski-Rockette Analysis(OR分析方法)、Dorfman-Berbaum-Metz-Hillis Analysis(DBMH分析法);
2)并进一步明确受试医师数量;
3)明确检验水准α、检验效能1-β、预计效应值,优效/非劣效界值,其中预计效应值可通过预试验或调研并汇总分析目标病灶检出的诊断学研究文献获得,优效/非劣效界值应通过同品种产品临床试验结果或权威文献研究等确定。不同疾病的检测效应不同,在试验设计中应明确优效/非劣效界值的设定依据。
4)以DBMH分析法为例,样本量估算与交互随机效应值,检验的检验效能、检验水准,受试医师数量,优效界值,非劣效界值(如有)等要素有关。用于样本量估算的效应值(effect size)选择时,可通过预试验得到的误差和混合效应方差来估计,并考虑预试验样本量等情况,在预试验结果的基础上采用适度保守的估计。
所有应用了试验产品的受试医师和患者都将被纳入分析,对于主要指标,除给出主要评价指标(灵敏度、特异度、AUC)的点估计外,还将分别对其对应的95%置信区间进行估计,通过试验组与对照组的优效/非劣效比较判断本试验产品是否满足临床应用的需要[8]。
本文通过对《人工智能辅助检测医疗器械(软件)临床评价注册审查指导原则》的逐步解读,深入分析了临床试验设计、研究对象、评价指标、临床参考标准构建及样本量估算与统计分析等关键要素。未来,随着人工智能技术的不断进步和法规标准的不断完善,AI辅助检测产品的临床评价将更加科学、规范。