点击上方DIA发布关注我们

撰稿:王钒、石再兴、陈尚志

审阅:段维、张昕、郭文天

 

摘要

在Time-to-Event临床试验中通常使用风险比(HR)对疗效进行衡量,其依赖于比例风险的(PH)假设。近年来随着新型作用机制的药物相继进入临床开发,临床试验结果显示非比例风险(NPH)模式十分常见。非比例风险是如何导致的?风险比的临床意义和所对应的因果效应为何会在学术界和工业界中引发热论?在非比例风险存在的情况下,风险比是否仍存在合理的临床解释?是否还能使用传统的生存分析统计方法?除了传统方法,还有哪些方法可以在非比例风险假设下进行疗效估计和统计推断?监管机构对这些新方法的接受度如何?不同模式的非比例风险假设下的试验设计有哪些特殊考量的地方?5月31日DIA中国统计论坛特邀阿斯利康全球研发中国中心统计副总监 郭文天博士担任主持人,阿斯利康全球研发中国中心 高级统计师 段维辉瑞生物统计高级经理 张昕博士担任演讲嘉宾,针对以上问题进行了深入分析。本次论坛邀请了诺华生物统计副总监 赵自强博士南方医科大学生物统计学教授 陈征博士恒瑞医药临床统计高级经理 杨信风博士罗氏统计师 王丽佳担任讨论嘉宾。

 

非比例风险的类型和成因(段维)

 

 

生存数据及常用统计方法简介

生存数据

临床试验常用的终点有的是在固定时间区间内观察的连续性终点指标的变化,如血压、HbA1c等,可用一般线性回归模型分析疗效;有的是与发生终点事件的时间有关,如总生存期、无进展生存期等。收集到的生存时间数据,称为生存数据。当研究对象在观察期内观察到事件的发生,收集了从随机开始到结局事件发生的准确时间,称为完全数据(complete data)。当研究对象在随访过程中未观察到终点事件,称为删失数据(censored data)。每个病人在研究中被随访时间各不相同,在不同时间点有些发生了事件,有的发生了删失。整个生存数据是一个完整观察和不完整观察所的到一个混合数据。这与我们在固定时间段内观察到完整的血压等终点改变是不同的。这个差异导致对于此类数据的分析需要有不同的统计理论作为基础。

生存函数和风险函数

生存数据常用生存函数(survival function)和风险函数(hazard function)描述。

生存函数或者生存率为生存率是指观察对象经历过tk个时段后仍旧存活的可能性。风险函数表示研究对象从 t 时刻到t+∆时刻期间发生事件的概率。

Cox比例风险模型简介

Cox比例风险模型是一种半参数回归模型,个体在t时刻的风险函数为基准风险函数与以多个自变量的线性组合的指数函数的乘积,这里只考虑了治疗因素。Cox模型表示为:

模型的前半部分是基线风险函数h0(t),不需要依赖于特定的分布,是非参数模型部分;后半部分是一个参数模型。

风险比率(hazard ratio, HR)是治疗组和对照组风险函数的比值。这个比值与基准风险函数无关,也与时间无关,模型中自变量的效应不随时间而改变,称为比例风险假定, PH 假定。同时,这个风险比也被解释为,即从t 时刻到t+∆ 时刻的瞬时风险。

Cox模型的前提是比例风险假定。违反这一假定,称为非比例风险(non-proportional hazard, NPH)。PH假设是否成立可以用图形或统计检验的方法进行评估。但统计检验方法不如图形方法敏感。

常见非比例风险类型

近些年来随着新型作用机制药品的临床研发的深入,特别常见于免疫肿瘤产品的临床研发中,很多临床试验结果呈现出非比例风险。这里列出四种常见的非比例风险的类型。如,有些免疫疗法的临床试验结果会存在延迟治疗效果,即免疫疗法组和标准护理组的生存曲线最初一段时间没有分离,但在一段时间后开始分离。这种现象可能是由于免疫疗法的作用机制导致。在有些肿瘤临床试验中,生存曲线之间在早期就发生了分离,但随后曲线之间的差距随着时间的推移而减小。也有临床试验结果存在生存曲线相互交叉的情况。最后,在某些情况下,新的肿瘤治疗组可能会存在一定比例的长期的幸存者,甚至延续到观察的第10年。图1这四个三期临床试验结果分别代表了非比例风险的四个类型,分别为延迟效应,效应递减, 交叉风险以及长期幸存者。

图1. 常见非比例风险类型

当研究数据存在上述情况时,PH假设通常不成立。这种情况下,Cox模型无法准确估计药物真实治疗效果。

非比例风险的成因

在临床试验中导致NPH的主要原因通常包括:

1) 本身药物疗效就出现延迟疗效或者疗效递减

2) 在治疗组中存在一定比例的非易感病人,即长期幸存者

3) 目标人群中 不同亚组的疗效有差异,极端情况是药物对于有部分基因型突变患者有获益,而对另一部分无突变患者有害

4) 由于肿瘤临床试验中经常会在对照组病人发生PD  以后,可以转到治疗组进行相关治疗,这就从试验设计方面导致组间获益递减或者交叉状况存在。

图2的例子从概念的角度阐述了导致NPH的底层原因,即随机后任意一个时间点,患者组间发生终点事件风险的不均衡,导致了选择性偏倚,从而影响治疗效果的准确估计。在治疗药物有效的假定下,高风险患者在治疗组中生存时间比对照组更长,在1年末和2年末治疗组中高风险患者的比例都将高于对照组。因此,治疗组中高风险患者的富集可能会导致选择偏倚的引入,基于这种数据的Cox模型分析将低估治疗效果。

图2. 随机后组间不平衡导致非比例风险的示意图

从概念层面解释,随机化后治疗组间的不平衡是导致NPH的根本原因。为了描述这种治疗组间的不平衡,研究者使用“脆弱因素”这一概念解释高危患者发生事件风险更高的现象。脆弱因素是一个复杂的概念,涵盖了个体之间许多不同类型的异质性。它可以反映个体间的生物学差异;也可能是由生活压力引所导致的脆弱,可以是随时间发生变化的;还包括由于疾病处于晚期或早期而导致发生终点事件风险的差异。

回到图2的例子中,经过实验药物治疗的人群和经过安慰剂治疗并存活了一段时间的人群,这两组人群在随访后期变得不可比,因为经过试验药物治疗并存活了下来人可能比经过安慰剂治疗但存活了同样时间的人更脆弱,因此将这两组人群进行直接比较估计HR会带来偏倚。

在PH假设下的,我们通常观察到的是传统Cox模型估计的群体水平的HR。由于生存风险是基于死亡事件的条件概率,并且受到患者水平因素的影响,当人群存在由各种脆弱因素导致的个体间异质性时,群体水平HR无法准确估计个体治疗效果。在乘法效应的假设下,群体水平HR将是与个体患者相关的因果HR的衰减估计。

从数据角度推导来看脆弱度对群体水平HR 产生的影响。如图3中公式的推导,由于脆弱因素导致的选择性偏倚的影响,当个体水平HR 是大于1 的风险因素时,群体水平的风险比是随时间不断发生递减的,在无限长的观察时间中,风险比终将接近1。当个体水平HR 时小于1的保护因素的,通过推导同样可以得出,在无限长的时间中, 风险比也将无限接近于1。

图3. 脆弱度对群体水平HR影响的推导

如图4中图形所示,即使在个体水平的HR 是大于1的风险因素,在群体水平上也有可能观察到不断接近于1,甚至观察到小于1 的群体HR的结果。同样的,当个体水平的HR 是小于1的保护因素时,也会由于个体间异质性导致的选择性偏倚,在较长的随访时间后,观察到群体HR 大于1的结果。

图. 4脆弱度对群体水平HR影响程度案例

以一个实例来看脆弱因素对治疗效果估计的实际影响。美国Women’s Health Initiative研究对16000多名妇女进行了平均5.2年的跟踪调查,评估雌激素联合孕激素预防心血管疾病风险的效果。由于安全原因该研究提前终止,试验的主要结论是“联合激素治疗的HR为1.24”。由图5展示的结果可看出,随着时间推移疗效发生了改变,HR从第一年随访时的piece-wise HR 1.8下降到了第六年时的0.7。风险曲线存在NPH现象,即在随访至第6-7年时曲线交叉。可能的解释是 治疗组的发生事件的风险高于对照组,经过前面四年,激素联合治疗组仍旧存活的大多是低风险人群,对照组存活的是高中风险人群,如果计算区间风险比,就有可能因为第6年年初两组风险的不均衡,导致其区间风险比小于1。

图5. 临床试验中NPH实例

总结

临床试验结果中NPH 一般可以归为四类,延迟效应,衰减效应, 交叉效应以及长期幸存者。个体水平因果HR 随时间发生变化或者 个体间的异质性因素都会导致NPH的发生,后者更容易被忽略。

群里水平观察到的HR 是个体水平因果HR 的一个衰减版本,即使因果 HR 是满足比例风险的,群体水平的HR 仍可能因为病人个体间的异质性导致呈现NPH的结果。

受到个体间异质性因素即脆弱因素的影响,会产生幸存者的选择性偏倚,进而导致相关风险比的下降,交叉等现象。当干预因素为 风险因素时,随着随访时间延长,风险因素会无限接近1,甚至降低到1以下。当干预因素为保护因素时,群体水平的风险比也会随着时间延长呈现 疗效衰减的现象。如果脆弱因素对风险影响符合乘法模型时,选择偏倚会随着治疗效应,基线风险异质性和随访时间的增加,其偏倚也会增加。

为了更好的从因果角度进行疗效估计,我们迫切需要,特别时在NPH 的pattern下需要探索新的疗效评价统计量和相关统计方法。

Reference

1. Ascierto, P.A., Del Vecchio, M., Robert, etc, 2017. Ipilimumab 10 mg/kg versus ipilimumab 3 mg/kg in patients with unresectable or metastatic melanoma: a randomised, double-blind, multicentre, phase 3 trial. Lancet Oncol. 18, 611–622.

2. Sparano, J.A., Vrdoljak, E., Rixe, O., etc, 2010. Randomized phase III trial of ixabepilone plus capecitabine versus capecitabine in patients with metastatic breast cancer previously treated with an anthracycline and a taxane. J. Clin. Oncol. 28 (Jul (20)), 3256–3263.

3. Borghaei, H., Paz-Ares, L., Horn, L., etc, 2015. Nivolumab versus docetaxel in advanced nonsquamous non-small-cell lung cancer. N. Engl. J. Med. 373 (October (17)), 1627–1639.

4. Kirkwood, J.M., Strawderman, M.H., Ernstoff, M.S., etc,1996. Interferon alfa-2b adjuvant therapy of high-risk resected cutaneous melanoma: the Eastern Cooperative Oncology Group Trial EST 1684. J. Clin. Oncol.14 (January (1)), 7–17.5.

5. Aalen, Odd, Ornulf Borgan, and Hakon Gjessing. 2008. Survival and Event History Analysis: A Process Point of View. Springer Science & Business Media.

6. Stensrud MJ, Valberg M, Røysland K, Aalen OO. Exploring selection bias by causal frailty models: the magnitude matters. Epidemiology 2017;28:379–386.

7. Stensrud, Mats J, John M Aalen, Odd O Aalen, and Morten Valberg. 2019. “Limitations of Hazard Ratios in Clinical Trials.”European Heart Journal 40 (17): 1378–83.

8. Hernán, M. (2010). The hazards of hazard ratios. Epidemiology (Cambridge, Mass.), 21(1):13–15.

9. Mok, T. S., Wu, Y. L., Thongprasert, S., Yang, C. H., Chu, D. T., Saijo, N., ... & Nishiwaki, Y. (2009). Gefitinib or carboplatin–paclitaxel in pulmonary adenocarcinoma. New England Journal of Medicine, 361(10), 947-957.

 

非比例风险情况下的统计分析方法(张昕博士)

 

 

Time to event数据的统计分析方法

Time-to-event数据常见的分析方法有:Kaplan-Meier (KM)方法、Log-rank(LR)检验以及Cox比例风险(PH)模型,其中Log-rank(LR)检验和Cox 比例风险(PH)模型需要满足比例风险(PH)假设。

Kaplan-Meier (KM) 方法是对生存函数S(t)的非参数估计,S(t)不需要任何假设。S(t)的推断基于Kaplan-Meier估计的近似正态性(Asymptotic normality)并且在删失独立(Independent censoring)条件下,所有近似性质都是成立的。

Log-rank(LR)检验通常用来检验两组的生存函数是否相同,即,

LR检验统计量为,

LR检验不依赖于事件发生的时间(Rank-invariant),对生存函数的形状没有任何假设(Non-parametric in nature),检验的power基于事件数而不是样本量,满足PH假设时LR检验的power最高,当违背PH假设时,会损失部分power。

Cox PH模型通过风险函数h(t)研究协变量与Time-to-event数据的关系,

Cox PH模型是半参数模型(Semiparametric model),其中h0(t)是基线风险函数对生存分布没有任何假设,协变量的风险比HR=exp(β)。HR的估计使用partial likelihood,是下面等式的解,

其中是tj时间发生的事件的log partial likelihood。在PH假设下,只基于事件发生的顺序并且partial likelihood的score test和LR检验是等价的。

以上可以看出Cox PH模型是需要PH假设的,如果不满足PH假设,Cox PH模型估计的是什么?

非比例风险(NPH)情况下的统计分析方法

Cox PH模型

在NPH情况下,Struthers 和 Kalbfleisch(1986)证明在特定条件下,收敛于β, β为下面等式的解,

其中Sc(t|z)是time-to-censoring的生存函数,由此可见会受到删失分布的影响。因此,NPH情形下,会受到不同研究的入组、随访和脱落的影响,使得无法在不同的研究中进行比较,并且难以将结果扩展到整个人群(unable to be generalized)。

Nguyen和Gillen(2012)示例在NPH情形下删失分布是如何影响Cox PH模型结果的,

图(a)中时间0-3的平均HR=0.64,图(b)中时间0-1的平均HR=1.01,

图(c)展示了不同的删失情形下的删失概率密度函数,当右侧数字越大表明删失越容易发生在前期,数字越小表明删失越容易发生在后期;图(d)可以看出当删失发生在后期时,HR较小,更接近与图(a)中后期的情况,如果删失发生在早期时,HR较大,类似图(b)的情况。

当PH不满足时,真实模型为,

其中exp(β(t))为随时间变化的HR。Grambsch 和 Therneau(1994)证明在特定条件下,

 exp()大致可以理解为平均HR(Average hazard ratio)。如果不存在删失,Xu和O’Quigley (2000)提出,

F(t)为事件发生时间的边际分布,τ是最大随访时间。

分段风险比(Piecewise Hazard Ratio)

前面提到在NPH情形下,使用Cox PH模型,得到的是平均HR,忽视了HR可能随时间变化,为了更好描述随时间变化的HR,我们可以将随时间变化的系数放进Cox模型中,常用的方法有分段PH模型,即分段风险比(Piecewise hazard ratio),如HR在时间段[0,τ1)和是[τ1,∞)常数,

其中exp(β1)和exp(β2)是时间段[0,τ1)和[τ1,∞)对应的HR。在实际中,分段PH 模型更倾向于在探索性分析中使用。

然而随时间变化的HR可能会产生选择偏倚(Selection bias),因为只有在时间为0,也就是随机时,基线变量和治疗分配是独立的,当时间大于0时,基线变量和治疗分配不再独立,如脆弱的患者在是治疗组有可能还活着,但是在对照组可能已经死亡,导致了基线变量和治疗分配的不均衡,如下图。

我们举个例子进一步解释选择偏倚,比较研究药物A和标准治疗B的辅助治疗(Adjuvant)效果的随机临床试验,假设手术可以治愈一半的患者,对于未治愈患者,HR=0.5,(A的治疗效果优于B)。随时间变化的HR可以使用分段风险比进行分析,在[0,τ1)时间段,由于在时间0时采用了随机,这时的风险比exp(β1)≈0.5,但是在[τ1,∞)时间段,由于B组的患者会有更高比例的治愈患者(未治愈患者在[0,τ1)时间段有可能已经发生事件),风险比exp(β1)可能会大于1,从而让我们误以为在长期A的治疗效果不如B(我们的假设是HR=0.5,A的治疗效果是一直优于B)。

限制平均生存时间(Restricted Mean Survival Time, RMST)

当PH假设不满足时,作为解决方法之一的RMST近来得到广泛关注,RMST可以通过计算限制时间点τ之前生存曲线S(t)下的面积得到,

RMST的估计值依赖于τ,不同的会导致结果的较大差异,所以值应该在研究开始前慎重考虑。

RMST可以解释为[0,τ]的平均生存时间,如τ=4年,RMST=1年,则患者随访4年,平均的生存时间为1年。

RMST的估计基于KM估计(非参数方法,不需要PH假设),

方差可以通过Greenwood’s formula计算,

治疗效应的估计为,

对于RMST的差的统计推断,原假设和备择假设分别为,

在原假设H0下,检验统计量为,

其中SD满足渐进标准正态分布,P值(双侧)=2x(1-Φ(|SD|))。

100(1-α)置信区间的计算方法为,

RMST差的样本量计算和常见的均值差的样本量计算类似,

但是由于删失的存在,实际的方差会高于理论估计的方差,我们可以假设各个治疗组的生存函数,随访时间、限制时间点τ、入组和删失的情形通过模拟(Royston 和 Parmer, 2013)来估计方差,得到的方差较理论估计的差异记作f,带入上面的样本量计算公式进行估计。

使用RMST的其他考量:

  • 为了达到预设的power需要充足的随访时间,最终分析的时间可以通过计算统计信息量(Statistical information)得到,统计信息量为方差的倒数,

  • 期中分析可以使用常见的成组序贯方法,当期中分析和最终分析的τ一致,统计信息量满足独立增量结构(Murray和Tsiatis, 1999)。

  • Tian等(2018)提出在NPH情形下,RMST检验总体上优于Log-rank(LR)检验。在PH下,RMST检验的表现和LR相似,但是当有延迟效应(Delayed effects)时,LR检验的power更高。

最后,RMST在对治疗效应的临床解释上也存在一些问题,如图4中HR=0.67, 但是两组RMST的差值只有0.5个月(23个月 vs. 23.5个月,τ=24个月),0.5个月的临床收益该如何解释需要进一步讨论。

加权Log-rank检验(Weighted Log-rank Test,WLR)

前面提到的LR检验假设每个时间点具有相同的相关性,但是当治疗效应随时间变化时,这个假设就不大合适了。WLR检验是在每个时间点上给予权重Wj,不同的权重对应不同的检验方法,

不同的NPH情形下使用不同的加权方法,可能会改善Log-rank检验效率。

其中一种WLR检验叫做Flemming-Harrington WLR检验,由Flemming和Harrington(1982)提出,是基于Gρ,τ的一系列WLR检验,

其中是KM估计的生存函数,不同的ρ和τ可以应对不同的治疗效应的类型:

WLR检验对治疗效应的估计是加权风险比(Weighted hazard ratio, WHR),WHR是基于WLR权重的时间平均风险比(Time averaged hazard ratio),通过Cox PH模型的加权partial likelihood来估计(Schemper, Wakounig和Heinze, 2009),

WHR的置信区间可以通过近似性质计算得到。

WLR检验的挑战:

  • WLR的表现依赖ρ和β的选择,这需要我们了解生存曲线的形状,如果使用错误的权重可能会导致power低于Log-rank检验。

  • Lin和León(2017)证明当h(t)=h0(t)exp(β·w(t)·z)且w(t)已知时,

  • Cox score test等价于WLR检验;

  • 如果w(t)和β(t)是成比例的,这时WLR检验是最优的;

  • w(t)·z可以视作部分治疗效应;

  • 但是最优的w(t)通常是不知道的。

  • WHR缺少直观的解释,它的估计目标比较复杂,缺少因果的解释并且很难和非统计师沟通。

另外,即使当治疗组一直比对照组差(Strong null),WLR也有可能做出统计学显著的结果,即WHR<1. 如图5,

治疗组一直比对照组差,但是风险函数有交叉,如果我们使用WLR检验,将更多权重给到后期,有可能得到治疗组优于对照组的结果。为了解决这个问题,Magritte和Burman (2019)提出了Modestly WLR检测。

MaxCombo检验

MaxCombo检验方法由NPH工作组提出(Lin等, 2020, Roychoudhury等, 2021),MaxCombo检验基于多个WLR检验统计量并根据数据情况选择最适合的值。MaxCombo的组合检验包含4种Fleming-Harrington WLR形式,G0,0,G0,1,G1,1,G1,0,还有一种组合检验为改良MaxCombo(Modified MaxCombo),包含G0,0,G0,0.5,G0.5,0.5,G0.5,0,该方法能够在比较好地在strong null下控制一类错误。MaxCombo作为组合检验可以处理PH,延迟效应(Delayed effect),生存曲线交叉(Crossing curves),效应递减(Diminishing effect)和多种NPH类型混合等情形。

MaxCombo检验统计量为,

一类错误和power的计算需要4个WLR检验统计量的联合分布,该联合分布在原假设下近似正态分布(Karrison, 2016),

相关矩阵为Γ=(ηij),

P值(单侧)可以如下计算,

MaxCombo检验的WHR可以通过选择的最合适的权重使用加权Cox回归进行计算,95%置信区间可以通过4个WLR检验统计量的联合分布得到。同样,非统计师难以理解WHR。

不同方法的模拟结果

Lin等(2020)评估了不同方法在NPH情形下的表现,方法包括Log-rank检验、3中不同权重的WLR检验、RMST、Weighted Kaplan-Meier(WKM)检验以及两种MaxCombo检验,NPH的情形如下,

经过大量的模拟,所有方法都可以较好地控制一类错误,

模拟的Power如下图,

模拟的结果总结如下,

  • 延迟效应(Delayed effects)

  • 权重为G0,1的WLR检验具有最高的power

  • RMST的表现优于LR检验

  • MaxCombo检验的power和权重为G0,1的WLR检验相似

  • 风险交叉(Crossing hazards)

  • 权重为G0,1的WLR检验具有最高的power

  • MaxCombo检验的power和权重为G0,1的WLR检验很接近

  • RMST的power低于LR检验

  • 效应递减(Diminishing effects)

  • 权重为G0,1的WLR检验具有最高的power

  • MaxCombo检验的power较LR检验低4%左右,但是略高于RMST

  • 比例风险(PH)

  • LR检验具有最高的power

  • 其他方法会损失大概10% 的power

  • MaxCombo检验较LR检验会降低3-4%的power

  • 尾部收敛的延迟效应(Delayed effects with converging tails)

  • 权重为G1,1的WLR检验具有最高的power

  • MaxCombo检验具有第二高的power

  • RMST检验和LR检验的power相似

通过以上总结,可以看出MaxCombo检验在不同的情形下都比较稳健。

但是FDA(Shen等,2022)认为MaxCombo检验更适用于支持性分析(Supportive analysis),主要理由是:

  • MaxCombo检验的解释性存在问题;

  • 在NPH不是很明显时MaxCombo检验的power提升有限;

  • MaxCombo检验有可能会无法控制一类错误;

  • 使用MaxCombo检验进行期中分析存在一些问题;

  • 当随访时间和样本量充足的情况下,LR检验可能会克服在NPH下出现的问题。

总结

  • Log-rank(LR)检验和Cox PH模型目前仍然是金标准;

  • MaxCombo检验看起来很有希望,但是监管的接受程度并不是很高;

  • 目前并没有单一的统计分析方法可以很好地解释随时间变化的治疗获益

  • 当可能存在NPH时,我们需要充足的样本量和随访时间以保证足够的power和控制一类错误

  • 我们可以使用分段指数近似(Piecewise exponential approximation)的方法设计有可能存在NPH情况的试验,常用的R包有gsdmvn,gsDesign, simtrial。

Reference

Fleming, T.R. and Harrington, D.P. (1981) A class of hypothesis tests for one and two sample censored survival data. Communications in Statistics - Theory and Methods, 10, 763–794.

Grambsch, P.M. and Therneau, T.M. (1994) Proportional hazards tests and diagnostics based on weighted residuals. Biometrika, 81, 515–526.

Karrison, T.G. (2016) Versatile Tests for Comparing Survival Curves Based on Weighted Log-rank Statistics. The Stata Journal, 16, 678–690.

Lin, R.S. and León, L.F. (2017) Estimation of treatment effects in weighted log-rank tests. Contemporary Clinical Trials Communications, 8, 147–155. 

Lin, R.S., Lin, J., Roychoudhury, S., Anderson, K.M., Hu, T., Huang, B., et al. (2020) Alternative Analysis Methods for Time to Event Endpoints Under Nonproportional Hazards: A Comparative Analysis. Statistics in Biopharmaceutical Research, 12, 187–198.

Magirr, D. and Burman, C.-F. (2018) Modestly weighted logrank tests. Statistics in medicine, 38, 3782–3790.

Murray, S., and Tsiatis, A. A. (1999) Sequential Methods for Comparing Years of Life Saved in the Two-Sample Censored Data Problem. Biometrics, 55, 1085–1092.

Neve, J.D. and Gerds, T.A. (2020) On the interpretation of the hazard ratio in Cox regression. Biometrical Journal, 62, 742–750.

Nguyen, V.Q. and Gillen, D.L. (2012) Robust inference in discrete hazard models for randomized clinical trials. Lifetime Data Analysis, 18, 446–469.

Pepe, M.S. and Fleming, T.R. (1989) Weighted Kaplan-Meier Statistics: A Class of Distance Tests for Censored Survival Data. Biometrics, 45, 497.

Roychoudhury, S., Anderson, K.M., Ye, J. and Mukhopadhyay, P. (2021) Robust Design and Analysis of Clinical Trials With Nonproportional Hazards: A Straw Man Guidance From a Cross-Pharma Working Group. Statistics in Biopharmaceutical Research, 1–15.

Royston, P. and Parmar, M.K. (2013) Restricted mean survival time: an alternative to the hazard ratio for the design and analysis of randomized trials with a time-to-event outcome. BMC Medical Research Methodology, 13, 152–152.

Shen, Y.-L., Wang, X., Sirisha, M., Mulkey, F., Zhou, J., Gao, X., et al. (2022) Nonproportional Hazards—An Evaluation of the MaxCombo Test in Cancer Clinical Trials. Statistics in Biopharmaceutical Research, 1–10.

Struthers, C.A. and Kalbfleisch, J.D. (1986) Misspecified proportional hazard models. Biometrika, 73, 363–369.

Tian, L., Fu, H., Ruberg, S.J., Uno, H. and Wei, L. (2018) Efficiency of two sample tests via the restricted mean survival time for analyzing event time observations. Biometrics, 74, 694–702.

Xu, R. and O’Quigley, J. (2000) Estimating average regression effect under non-proportional hazards. Biostatistics, 1, 423–439.

 

非比例风险存在情况下的实际设计考虑(郭文天博士)

 

 

试验设计阶段NPH的考量包括延迟效应(Delayed effect)、亚组效应和亚组发生率(Subgroup effect and subgroup prevalence)、长期幸存者(Long-term survivor)、治疗转组(Treatment switching)、疾病进展(Disease progression)等因素。

示例一 延迟效应

当存在延迟效应,即HR在滞后时间之前与之后不相同时,平均风险(averaged HR)可用于计算样本量:

其中ρ1和ρ2分别表示滞后时间之前和之后观察到的事件比例。延迟效应下常假设HR1=1,而HR1<1,则随着ρ2的增加而减小,当事件数固定时Power将取决于成熟度(maturity)。因此存在延迟效应时申办方需仔细评估增加样本量以缩短试验随访时间的决策。

Mukhopadhyay et al (2020)比较了延迟效应下无效性分析的不同策略:策略一、考虑在 xx% 目标事件中进行无效性分析;策略二、考虑在与前 xx% 入组患者的成熟度与最终成熟度相同时进行无效性分析,无效决定仅取决于前 xx% 入组患者的数据。从下表模拟结果(Mukhopadhyay et al (2020)的表2第二行10.9% 对比5.2%)可以看出对比策略一,,策略二可降低错误的无效停止的风险。

截图来自Mukhopadhyay et al (2020)。

示例二、 亚组(人群异质性)

假设 ABC靶向治疗对ABC 中表达和高表达亚组均有效但治疗效果不同:中表达HR=0.83,高表达HR=0.5。对于在NPH下计算ITT人群的样本量,在通常情况下仍然是根据PH假设和ITT群体的对数秩检验来计算,即对 ITT 群体和生物标志物 + 亚组分别假设不同的常数 HR。因此,合理假设mOS(median OS)或者 OS  landmark尤为重要。另外,在样本量计算时可采用较高功效来考虑NPH带来的负面影响。

对比mOS假设和OS landmark假设下的治疗效应:假设 一、在两个亚组里匹配mOS,再基于mOS假设利用指数函数导出其他参数;假设二、在两个亚组里匹配OS landmark,再基于OS landmark假设利用指数函数导出其他参数。从下表分析结果可以看出,在 NPH 下很难使用单一汇总测量来量化治疗效果,使用不同汇总测量进行假设可能会导致不同的治疗效果。

总结

因NPH 的存在,Power不仅仅与事件数有关;对于延迟效应,需注意成熟度;认真考虑可能的治疗效应情景,设计在多个场景下适用的试验并计划最坏的情形。

Reference

Mukhopadhyay, P., Huang, W., Metcalfe, P., Öhrn, F., Jenner, M., & Stone, A. (2020). Statistical and practical considerations in designing of immuno-oncology trials. Journal of Biopharmaceutical Statistics, 30(6), 1130-1146.

Tang, Y. (2021). A unified approach to power and sample size determination for log-rank tests under proportional and nonproportional hazards. Statistical Methods in Medical Research, 30(5), 1211-1234.

Yung, G., & Liu, Y. (2020). Sample size and power for the weighted log‐rank test and Kaplan‐Meier based tests with allowance for nonproportional hazards. Biometrics, 76(3), 939-950.

Zhang, D., & Quan, H. (2009). Power and sample size calculation for log‐rank test with a time lag in treatment effect. Statistics in medicine, 28(5), 864-879.

 

会员小提示

本期社区直播已在DIA全球会员专区上线,会员可直接登录观看!

会员可登陆线上专区,浏览近期社区直播回放。

1

登录:http://kc.dianow.cn/

2

点击DIA全球会员,会员专享社区直播回放,观看回放。

 

 
 
 

关于DIA

DIA是一个全球化、跨学科的国际性学术组织,在中立的环境中,融合医药研发领域全行业的意见领袖,探讨当前研发的技术问题,提升专业能力,以及催化行业共识,在全球医药研发领域享有很高的声誉。

扫码关注我们

 
 

微信号|DIA发布

长按识别左侧二维码即可关注

我们努力为你提供有内容的内容。

 

关于DIA

Time-to-Event终点临床试验中的非比例风险 — 产生原因、统计分析和设计考量 | DIA中国统计论坛直播总结