TensorRT模型加速部署方案解析（视频/案例讲解）-技术圈

向AI转型的程序员都关注了这个号👇👇👇

机器学习AI算法工程公众号：datayx

1、介绍tensorRT，和本课程、以及涉及的框架

2、介绍tensorRT驾驭的几种方案，以及推荐框架

3、正确导出onnx并在c++中使用

4、动态batch和动态宽高的实现方案

5、实现一个插件

6、关于封装

7、yolov5案例

8、retinaface案例

9、高性能低耦合

10、便捷性

tensorRT，nvidia发布的dnn推理引擎，是针对nvidia系列硬件进行优化加速，实现最大程度的利用GPU资源，提升推理性能

tensorRT是业内nvidia系列产品部署落地时的最佳选择

这个课程主要围绕着https://github.com/shouxieai/tensorRT_cpp提供的方案开展讨论，使得能够使用、部署起来

该教程，讲驾驭tensorRT，实现从模型导出，到c++/python推理加速，再到高性能、低耦合、有效、便捷的工程落地方案

以最终可用、好用为出发点

需要的知识点：

1、对深度学习的认识，CV相关知识，PyTorch

2、ONNX的认识，Netron工具的简单使用

3、C++和python能力

4、一定程度的cuda能力，了解tensorRT

课程内容：

1、如何正确的导出onnx

2、如何在c++中使用起来

3、动态batch，和动态宽高的处理方式

4、实现一个自定义插件

5、c++中推理实现高性能低耦合的方法

项目代码，视频讲解，PPT 获取方式：

关注微信公众号 datayx 然后回复 trt 即可获取。

驾驭TensorRT的方案介绍

TensorRT提供基于C++接口的构建模型方案

TensorRT-8.0.1.6/samples/sampleMNISTAPI/sampleMNISTAPI.cpp

以C++接口为主，进而提供了python的接口

TensorRT-8.0.1.6/samples/python/engine_refit_mnist/sample.py

基于tensorRT的发布，又有人在之上做了工作

repo1，https://github.com/wang-xinyu/tensorrtx

为每个模型写硬代码

repo2，https://github.com/NVIDIA-AI-IOT/torch2trt

为每个算子写Converter，反射Module.forward捕获输入输出和图结构

repo3(推荐方案)，https://github.com/shouxieai/tensorRT_cpp

基于ONNX路线，提供C++、Python接口，深度定制ONNXParser，低耦合封装，实现常用模型YoloX、YoloV5、RetinaFace、Arcface、SCRFD、DeepSORT

算子由官方维护，模型直接导出

C++接口，YoloX三行代码

Python接口

如何正确的导出onnx

1.对于任何用到shape、size返回值的参数时，例如：tensor.view(tensor.size(0),-1)这类操作，避免直接使用tensor.size的返回值，而是加上int转换，tensor.view(int(tensor.size(0)), -1)

2.对于nn.Upsample或nn.functional.interpolate函数，使用scale_factor指定倍率，而不是使用size参数指定大小

3.对于reshape、view操作时，-1的指定请放到batch维度。其他维度可以计算出来即可。batch维度禁止指定为大于-1的明确数字

4.torch.onnx.export指定dynamic_axes参数，并且只指定batch维度。我们只需要动态batch，相对动态的宽高有其他方案

5.使用opset_version=11，不要低于11

6.避免使用inplace操作，例如y[…,0:2] = y[…, 0:2] * 2 - 0.5

7.掌握了这些，就可以保证后面各种情况的顺利了●

这些做法的必要性体现在，简化过程的复杂度，去掉gather、shape类的节点，很多时候，部分不这么改看似也是可以但是需求复杂后，依旧存在各类问题。按照说的这么修改，基本总能成。

实现一个自定义插件

流程简介：

导出环节：

1.对需要插件的layer，写一个类A，继承自torch.autograd.Function2.对这个类A增加symbolic的静态方法，其中返回g.op()，名称给Plugin，name_s为插件名称，info可以带上string类型信息3.对这个类A增加forward的静态方法，使得其可以被pytorch正常推理，此时的forward内的任何操作不会被跟踪并记录到onnx中。通常直接返回个对等大小和数量的tensor即可，不一定要完全实现功能4.实现一个OP的类，继承自nn.Module，在OP.forward中调用A.apply5.正常使用OP集成到模型中即可●

编译/推理环节：

1.在src/tensorRT/onnxplugin/plugins中写cu和hpp文件，参照Hswish2.实现类继承自TRTPlugin，

a. new_config用于返回自定义config类并进行配置

b. getOutputDimensions返回layer处理后的tensor大小

c. enqueue实现具体推理工作

关于封装