使用 Torch-TensorRT 在 PyTorch 中将推理速度提高 6 倍

vlambda
2022-04-21

使用 Torch-TensorRT 在 PyTorch 中将推理速度提高 6 倍

Torch-TensorRT ，这是 PyTorch 与 NVIDIA TensorRT 的新集成，它通过一行代码加速推理。PyTorch 是当今领先的深度学习框架，在全球拥有数百万用户。TensorRT是一个 SDK，用于跨在数据中心、嵌入式和汽车设备中运行的 GPU 加速平台进行高性能、深度学习推理。这种集成使 PyTorch 用户在使用 TensorRT 时通过简化的工作流程获得极高的推理性能。

图 1. 可以在各种 NVIDIA 平台上使用 Torch-TensorRT 编译 PyTorch 模型

什么是 Torch-TensorRT

Torch-TensorRT是 PyTorch 的集成，它利用 NVIDIA GPU 上的 TensorRT 推理优化。只需一行代码，它就提供了一个简单的 API，可在 NVIDIA GPU 上提供高达 6 倍的性能加速。

这种集成利用了 TensorRT 优化，例如 FP16 和 INT8 降低精度，同时在 TensorRT 不支持模型子图时提供对原生 PyTorch 的回退。

Torch-TensorRT 的工作原理

Torch-TensorRT 作为 TorchScript 的扩展。它优化并执行兼容的子图，让 PyTorch 执行剩余的图。PyTorch 全面而灵活的功能集与 Torch-TensorRT 一起使用，可解析模型并将优化应用于图形中与 TensorRT 兼容的部分。

编译后，使用优化图就像运行一个 TorchScript 模块，用户可以获得更好的 TensorRT 性能。Torch-TensorRT 编译器的架构由兼容子图的三个阶段组成：

降低 TorchScript 模块
转换
执行

降低 TorchScript 模块

在第一阶段，Torch-TensorRT 降低了 TorchScript 模块，将常见操作的实现简化为更直接映射到 TensorRT 的表示。需要注意的是，这种降低通道不会影响图形本身的功能。

图 2. 解析和转换 TorchScript 的图表

转换

在转换阶段，Torch-TensorRT 会自动识别与 TensorRT 兼容的子图，并将其转换为 TensorRT 操作：

具有静态值的节点被评估并映射到常量。
描述张量计算的节点被转换为一个或多个 TensorRT 层。
其余节点保留在 TorchScripting 中，形成一个混合图，作为标准 TorchScript 模块返回。

图 3. 将 Torch 的操作映射到全连接层的 TensorRT 操作

修改后的模块会通过嵌入的 TensorRT 引擎返回，这意味着整个模型（PyTorch 代码、模型权重和 TensorRT 引擎）可以在单个包中进行移植。

图 4. 将Conv2d层转换为 TensorRT 引擎，同时log_sigmoid回退到 TorchScript JIT

执行

当执行已编译的模块时，Torch-TensorRT 会实时设置引擎并准备好执行。当执行这个修改后的 TorchScript 模块时，TorchScript 解释器会调用 TensorRT 引擎并传递所有输入。引擎运行并将结果推送回解释器，就好像它是一个普通的 TorchScript 模块一样。

图 5. PyTorch 和 TensorRT 操作的运行时执行

Torch-TensorRT 功能

Torch-TensorRT 引入了以下特性：支持 INT8 和稀疏性。

支持 INT8

Torch-TensorRT 通过两种技术扩展了对低精度推理的支持：

训练后量化 (PTQ)
量化感知训练 (QAT)

对于 PTQ，TensorRT 使用校准步骤，使用来自目标域的样本数据执行模型。IT 跟踪 FP32 中的激活以校准到 INT8 的映射，从而最大限度地减少 FP32 和 INT8 推理之间的信息丢失。TensorRT 应用程序要求编写一个校准器类，为 TensorRT 校准器提供样本数据。

Torch-TensorRT 使用 PyTorch 中的现有基础设施来简化校准器的实施。LibTorch 提供了一个 DataLoader 和 Dataset API，它简化了预处理和批处理输入数据。这些 API 通过 C++ 和 Python 接口公开，更容易使用 PTQ。

对于 QAT，TensorRT 引入了新的 API： QuantizeLayer 和 DequantizeLayer ，它们将 PyTorch 中与量化相关的操作映射到 TensorRT。类似的操作由 Torch-TensorRT 在内部 aten::fake_quantize_per_*_affine 转换。

稀疏性

NVIDIA Ampere 架构在 NVIDIA A100 GPU上引入了第三代张量核心，这些核心在网络权重中使用细粒度的稀疏性。它们提供了密集数学的最大吞吐量，而不会牺牲作为深度学习核心的矩阵乘法累加作业的准确性。

TensorRT 支持在这些 Tensor Core 上注册和执行一些稀疏层的深度学习模型。
Torch-TensorRT 扩展了对卷积和全连接层的支持。

示例：图像分类的吞吐量比较

在本文中，将通过一个名为 EfficientNet 的图像分类模型执行推理，并计算模型在通过 PyTorch、TorchScript JIT 和 Torch-TensorRT 导出和优化时的吞吐量。

安装和先决条件

要执行这些步骤，需要以下资源：

具有 NVIDIA GPU、计算架构 7 或更早版本的 Linux 机器
已安装 Docker，19.03 或更高版本
一个 Docker 容器，包含 PyTorch、Torch-TensorRT 以及从NGC 目录中提取的所有依赖项

按照说明运行标记为nvcr.io/nvidia/pytorch:21.11-py3的 Docker 容器。

现在在 Docker 容器中有一个实时 bash 终端，启动一个 JupyterLab 实例来运行 Python 代码。在端口 8888 上启动 JupyterLab 并将令牌设置为 TensorRT . 保留系统的 IP 地址，以便在浏览器上访问 JupyterLab 的图形用户界面。

Jupyter lab --allow-root --IP=0.0.0.0 --NotebookApp.token=’TensorRT’ --port 8888

在浏览器上连接到 JupyterLab 的图形用户界面后，可以创建一个新的 Jupyter 笔记本。首先安装timm，这是一个包含预训练计算机视觉模型、权重和脚本的 PyTorch 库。EfficientNet-b0从这个库中拉出模型。

pip install timm

导入相关库并nn.Module为EfficientNet-b0.

import torch
import torch_tensorrt
import timm
import time
import numpy as np
import torch.backends.cudnn as cudnn

torch.hub._validate_not_a_forked_repo=lambda a,b,c: True

efficientnet_b0 = timm.create_model('efficientnet_b0',pretrained=True)

通过将随机浮点数的张量传递给该对象的forward方法，您可以从此模型中获得预测。efficientnet_b0

model = efficientnet_b0.eval().to("cuda")
detections_batch = model(torch.randn(128, 3, 224, 224).to("cuda"))
detections_batch.shape

这将返回一个 [128, 1000] 的张量，对应于 128 个样本和 1,000 个类。

要通过 PyTorch JIT 和 Torch-TensorRT AOT 编译方法对该模型进行基准测试，编写一个简单的基准实用程序函数：

cudnn.benchmark = True

def benchmark(model, input_shape=(1024, 3, 512, 512), dtype='fp32', nwarmup=50, nruns=1000):
    input_data = torch.randn(input_shape)
    input_data = input_data.to("cuda")
    if dtype=='fp16':
        input_data = input_data.half()
        
    print("Warm up ...")
    with torch.no_grad():
        for _ in range(nwarmup):
            features = model(input_data)
    torch.cuda.synchronize()
    print("Start timing ...")
    timings = []
    with torch.no_grad():
        for i in range(1, nruns+1):
            start_time = time.time()
            pred_loc  = model(input_data)
            torch.cuda.synchronize()
            end_time = time.time()
            timings.append(end_time - start_time)
            if i%10==0:
                print('Iteration %d/%d, avg batch time %.2f ms'%(i, nruns, np.mean(timings)*1000))

    print("Input shape:", input_data.size())
    print('Average throughput: %.2f images/second'%(input_shape[0]/np.mean(timings)))

现在已准备好对此模型执行推理。

使用 PyTorch 和 TorchScript 进行推理

首先，采用 PyTorch 模型并计算批量大小为 1 的平均吞吐量：

model = efficientnet_b0.eval().to("cuda")
benchmark(model, input_shape=(1, 3, 224, 224), nruns=100)

可以使用 TorchScript JIT 模块重复相同的步骤：

traced_model = torch.jit.trace(model, torch.randn((1,3,224,224)).to("cuda")])
torch.jit.save(traced_model, "efficientnet_b0_traced.jit.pt")
benchmark(traced_model, input_shape=(1, 3, 224, 224), nruns=100)

PyTorch 和 TorchScript JIT 报告的平均吞吐量将是相似的。

使用 Torch-TensorRT 进行推理

要使用 Torch-TensorRT 以混合精度编译模型，请运行以下命令：

trt_model = torch_tensorrt.compile(model, 
    inputs= [torch_tensorrt.Input((1, 3, 224, 224))],
    enabled_precisions= { torch_tensorrt.dtype.half} # Run with FP16
)

最后，对这个 Torch-TensorRT 优化模型进行基准测试：

benchmark(trt_model, input_shape=(1, 3, 224, 224), nruns=100, dtype="fp16")

基准测试结果

这是在批量大小为 1 的 NVIDIA A100 GPU 上取得的结果。

图 6. 在批量大小为 1 的 NVIDIA A100 GPU 上比较原生 PyTorch 与 Torch-TensorRt 的吞吐量

总结

只需一行代码进行优化，Torch-TensorRT 即可将模型性能加速高达 6 倍。它确保了 NVIDIA GPU 的最高性能，同时保持了 PyTorch 的易用性和灵活性。

Ashish Sardana

vlambda博客
学习文章列表