vlambda
2020-02-29

R语言生存分析可视化分析

完整原文链接：http://tecdat.cn/?p=5438

生存分析对应于一组统计方法，用于调查感兴趣事件发生所花费的时间。

生存分析被用于各种领域，例如：

癌症研究为患者生存时间分析，

“事件历史分析”的社会学

在工程的“故障时间分析”。

在癌症研究中，典型的研究问题如下：

某些临床特征对患者的生存有何影响？

个人三年存活的概率是多少？

各组患者的生存率有差异吗？

基本概念

在这里，我们从定义生存分析的基本术语开始，包括：

生存时间和事件

生存功能和危险功能

癌症研究中的生存时间和事件类型

有不同类型的事件，包括：

复发

死亡

从“应对治疗”（完全缓解）到发生感兴趣事件的时间通常称为生存时间（或事件发生的时间）。

癌症研究中两个最重要的措施包括：i）死亡时间;和ii）无复发存活时间，其对应于治疗反应与疾病复发之间的时间。它也被称为无病生存时间和无事件生存时间。

如上所述，生存分析侧重于直到发生感兴趣事件（复发或死亡）的预期持续时间。

Kaplan-Meier生存评估

Kaplan-Meier（KM）方法是一种非参数方法，用于估计观察到的生存时间的生存概率（Kaplan和Meier，1958）。

知识管理生存曲线是知识管理生存概率与时间的关系曲线，它提供了一个有用的数据总结，可以用来估计诸如中位生存时间之类的衡量指标。

R生存分析

安装并加载所需的R包

我们将使用两个R包：

生存计算生存分析

survminer的总结和可视化生存分析结果

安装软件包 install.packages(c("survival","survminer")) 加载包 library("survival") library("survminer")

示例数据集

我们将使用生存包中提供的肺癌数据。

data("lung")head(lung) inst time status age sex ph.ecog ph.karno pat.karno meal.cal wt.loss1 3 306 2 74 1 1 90 100 1175 NA2 3 455 2 68 1 0 90 90 1225 153 3 1010 1 56 1 0 90 90 NA 154 5 210 2 57 1 1 90 60 1150 115 1 883 2 60 1 0 100 90 NA 06 12 1022 1 74 1 1 50 80 513 0

R语言生存分析可视化分析

inst：机构代码

时间：以天为单位的生存时间

状态：审查状态1 =审查，2 =死亡

年龄：年龄

性别：男= 1女= 2

ph.ecog：ECOG表现评分（0 =好5 =死）

ph.karno：Karnofsky表现评分（bad = 0-好= 100）由医师评定

pat.karno：Karnofsky表现评分由患者评估

膳食：餐时消耗的卡路里

wt.loss：过去六个月的体重下降

计算生存曲线：survfit（）

我们要按性别来计算生存概率。

功能survfit（）[在存活包]可以被用来计算Kaplan-Meier存活估计。其主要论点包括：

使用函数Surv（）创建的生存对象

要计算生存曲线，请输入以下内容：

fit<-survfit(Surv(time,status)~sex,data=lung)print(fit) Call: survfit(formula = Surv(time, status) ~ sex, data = lung)n events median 0.95LCL 0.95UCLsex=1 138 112 270 212 310sex=2 90 53 426 348 550

R语言生存分析可视化分析

默认情况下，函数print（）显示生存曲线的简短摘要。它显示观察次数，事件数量，中位数生存和中位数的置信限。

如果要显示生存曲线的更完整摘要，请输入以下内容：

# Summary of survival curvessummary(fit)# Access to the sort summary tablesummary(fit)$table

R语言生存分析可视化分析

可视化生存曲线

我们生成两组受试者的生存曲线。

R语言生存分析可视化分析

legend.labs更改图例标签。

R语言生存分析可视化分析

每组的中位生存时间表示生存概率S（t）为0.5的时间。

使用参数xlim可以缩短生存曲线，如下所示：

R语言生存分析可视化分析

请注意，可以使用参数fun指定三个经常使用的转换：

R语言生存分析可视化分析

的累积性危险是常用来估计危险概率。

R语言生存分析可视化分析

Kaplan-Meier生命表：生存曲线的总结

如上所述，您可以使用函数summary（）来获得生存曲线的完整摘要：

summary(fit)

R语言生存分析可视化分析

在生存曲线已经与一个或多个变量拟合的情况下，surv_summary对象包含表示变量的额外列。这使得有可能根据地层或某些因素的组合来面对ggsurvplot的输出。

Log-Rank检验比较生存曲线：survdiff（）

对数秩检验是比较两条或更多条生存曲线的最广泛使用的方法。零假设是两组在生存期间没有差异。

可以使用survdiff（）如下：

surv_diff<-survdiff(Surv(time,status)~sex,data=lung)surv_diff Call:survdiff(formula = Surv(time, status) ~ sex, data = lung)N Observed Expected (O-E)^2/E (O-E)^2/Vsex=1 138 112 91.6 4.55 10.3sex=2 90 53 73.4 5.68 10.3Chisq= 10.3 on 1 degrees of freedom, p= 0.00131

R语言生存分析可视化分析

存活率差异的对数秩检验给出p = 0.0013的p值，表明性别组在存活方面差异显着。

复杂的生存曲线

在本节中，我们将使用多个因素的组合计算生存曲线。接下来，我们将面向ggsurvplot（）的输出结合因素

fit2<-survfit(Surv(time,status)~sex+rx+adhere,data=colon)

使用幸存者可视化输出。下面的图显示了性别变量根据rx＆adhere的值生存的曲线。

R语言生存分析可视化分析

概要

生存分析是一组数据分析的统计方法，其中感兴趣的结果变量是事件发生之前的时间。

在这篇文章中，我们演示了如何使用两个R软件包的组合来执行和可视化生存分析：生存（用于分析）和生存者（用于可视化）。

更多内容，请点击左下角“阅读原文”查看

R语言生存分析可视化分析

案例精选、技术干货第一时间与您分享

长按二维码加关注

更多内容，请点击左下角“阅读原文”查看

vlambda博客
学习文章列表

R语言生存分析可视化分析

完整原文链接：http://tecdat.cn/?p=5438

基本概念

Kaplan-Meier生存评估

R生存分析

示例数据集

使用函数Surv（）创建的生存对象

可视化生存曲线

Log-Rank检验比较生存曲线：survdiff（）

复杂的生存曲线

概要

标签:

推荐阅读

相关文章

vlambda博客 学习文章列表

R语言生存分析可视化分析

完整原文链接：http://tecdat.cn/?p=5438

基本概念

Kaplan-Meier生存评估

R生存分析

示例数据集

使用函数Surv（）创建的生存对象

可视化生存曲线

Log-Rank检验比较生存曲线：survdiff（）

复杂的生存曲线

概要

标签:

推荐阅读

相关文章

vlambda博客
学习文章列表