TensorRT实战-基本框架

简介: 上篇博文4_TensorRT概况主要讲了Nvida TensorRT的编程API,本篇主要通过一个简单、完整的例子来讲解如何将一个Caffe模型(GoogleNet模型)通过TensorRT进行推理加速。

上篇博文4_TensorRT概况主要讲了Nvida TensorRT的编程API,本篇主要通过一个简单、完整的例子来讲解如何将一个Caffe模型(GoogleNet模型)通过TensorRT进行推理加速。


系统环境


本示例运行的系统环境如下:


  • 硬件环境:Jetson TX2


  • 软件环境:


  • JetPack:V4.2
  • CUDA:CUDA ToolKit for L4T V10.0
  • cuDNN:
  • cuDNN on Target 7.3
  • TensorRT On Target 5.0
  • Computer Vison:
  • OpenCV on Target 3.3.1
  • VisionWorks on target  1.6
  • MultiMedia API:  32.1


TensorRT基本框架


SampleGoogleNet类实现了基于GoogleNet模型的TensorRT网络构建、engine创建、推理等接口。


class SampleGoogleNet
{ 
  public:
      SampleGoogleNet(const samplesCommon::CaffeSampleParams& params)
          : mParams(params)
      {
      }
      //!
      //! 创建TensorRT网络
      //!
      bool build();
      //!
      //! 运行TensorRT推理引擎
      //!
      bool infer();
      //!
      //! 清理运行时创建的状态、资源
      //!
      bool teardown();
      samplesCommon::CaffeSampleParams mParams;
  private:
      std::shared_ptr<nvinfer1::ICudaEngine> mEngine = nullptr; //用于运行网络TensorRT引擎
      //!
      //! 该函数为GoogleNet解析一个Caffe模型,并创建一个TensorRT网络
      //!
      void constructNetwork(SampleUniquePtr<nvinfer1::IBuilder>& builder, SampleUniquePtr<nvinfer1::INetworkDefinition>& network, SampleUniquePtr<nvcaffeparser1::ICaffeParser>& parser);
};


配置参数


构建TensorRT时,需要几个比较重要的参数,这些参数一般在TensorRT应用启动时由命令行传入或者使用默认的配置参数。大部分参数都是在构建TensorRT网络时需要的配置参数,先分别列出如下:


  • batchSize:批量输入的数量


  • dalCore:是否使用DLA(Deep Learning Accelerate


  • dataDirs:网络模型数据存放的位置


  • inputTensorNames:用作输入的Tensor的数量


  • outputTensorNames:用作输出的Tensor的数量


  • 下面这两个参数用于基于Caffe的神经网络配置:


  • prototxtFileName:网络原型配置文件


  • weightsFileName:网络权重文件


构建(网络、推理引擎)


SampleGoogleNet::build(),该函数通过解析caffe模型创建GoogleNet网络,并构建用于运行GoogleNet (mEngine)的引擎。


//创建用于推理的Builder
  auto builder = SampleUniquePtr<nvinfer1::IBuilder>(nvinfer1::createInferBuilder(gLogger));
    if (!builder)
        return false;
  //通过builder创建网络定义
    auto network = SampleUniquePtr<nvinfer1::INetworkDefinition>(builder->createNetwork());
    if (!network)
        return false;
  //创建用于解析caffe网络模型的parser
    auto parser = SampleUniquePtr<nvcaffeparser1::ICaffeParser>(nvcaffeparser1::createCaffeParser());
    if (!parser)
        return false;
  //通过builder、network、parser、配置参数构建网络定义
    constructNetwork(builder, network, parser);
  constructNetwork函数定义如下:
  {
    const nvcaffeparser1::IBlobNameToTensor* blobNameToTensor = parser->parse(
        locateFile(mParams.prototxtFileName, mParams.dataDirs).c_str(),//加载网络原型配置文件
        locateFile(mParams.weightsFileName, mParams.dataDirs).c_str(),//加载网络训练权重文件
        *network,//网络定义
        nvinfer1::DataType::kFLOAT);//权重和张量的精度类型为FP32 format
    //遍历outputTensorNames,通过blobNameToTensor->find函数转换为对应的Tensor,最后通过markOutput将该Tensor标记为网络的输出量。
      for (auto& s : mParams.outputTensorNames)
          network->markOutput(*blobNameToTensor->find(s.c_str()));
    //根据batchSize设置最大的batchsize。
      builder->setMaxBatchSize(mParams.batchSize);
    //设置最大的工作空间大小。
      builder->setMaxWorkspaceSize(16_MB);
    //根据dlaCore决定是否启用DLA功能。
      samplesCommon::enableDLA(builder.get(), mParams.dlaCore);
  }
  //根据构建好的网络定义创建Cuda推理引擎。
    mEngine = std::shared_ptr<nvinfer1::ICudaEngine>(builder->buildCudaEngine(*network), samplesCommon::InferDeleter());
    if (!mEngine)
        return false;


推理


SampleGoogleNet::infer(),这个函数是示例的主要执行函数。它分配缓冲区、设置输入并执行引擎。


//创建RAII缓冲区(BufferManager类处理主机和设备(GPU)缓冲区分配和释放)管理结构。
  //BufferManager这个RAII类处理主机和设备缓冲区的分配和释放,主机和设备缓冲区之间的memcpy来辅助推理,调试转储来验证推
    //理。BufferManager类用于简化缓冲区管理以及缓冲区与引擎之间的任何交互
    samplesCommon::BufferManager buffers(mEngine, mParams.batchSize);
  //创建推理引擎运行上下文
    auto context = SampleUniquePtr<nvinfer1::IExecutionContext>(mEngine->createExecutionContext());
    if (!context)
        return false;
    //获取主机缓冲区并将主机输入缓冲区设置为所有零
    for (auto& input : mParams.inputTensorNames)
        memset(buffers.getHostBuffer(input), 0, buffers.size(input));
    //将数据通过memory从主机输入缓冲区拷贝到设备输入缓冲区
    buffers.copyInputToDevice();
  //执行推理 
    bool status = context->execute(mParams.batchSize, buffers.getDeviceBindings().data());
    if (!status)
        return false;
    //推理完成之后,将数据通过memcopy从设备输出缓冲区拷贝到主机输出缓冲区
    buffers.copyOutputToHost();


资源清理


nvcaffeparser1::shutdownProtobufLibrary();资源清理主要涉及到parser所使用的protobuf的清理。


总结


本文通过一个十分简单的示例,讲解了如何将一个网络模型部署到TensorRT上的编码过程。需要注意的是,文中所使用的网络模型为Caffe,使用到的parser也为ICaffeParser,TensorRT同时还支持ONX、UFF格式的parser,后续会总结如何通过这两类parser导入其他不同的网络模型,例如,tensorflow等。在执行推理时,需要涉及到数据在GPU缓存与CPU缓存之间的拷贝过程,该过程比较繁琐,文中使用BufferMannager很好的封装了这些过程,后续再开发TensorRT网络时可能借鉴这一思想。


相关文章
|
机器学习/深度学习 存储 并行计算
一篇就够:高性能推理引擎理论与实践 (TensorRT)
本文分享了关于 NVIDIA 推出的高性能的深度学习推理引擎 TensorRT 的背后理论知识和实践操作指南。
14704 9
一篇就够:高性能推理引擎理论与实践 (TensorRT)
|
监控 编译器 C++
【代码讲解】【C/C++】获取文件最后修改的时间(系统时间)
【代码讲解】【C/C++】获取文件最后修改的时间(系统时间)
701 0
|
前端开发 JavaScript 小程序
前端uni开发后端用PHP的圈子系统该 如何做源码?
圈子系统系统基于TP6+Uni-app框架开发;客户移动端采用uni-app开发,管理后台TH6开发。系统支持微信公众号端、微信小程序端、H5端、PC端多端账号同步,可快速打包生成APP
|
存储 计算机视觉
OpenCV 中 CV_8UC1,CV_32FC3,CV_32S等参数的含义
OpenCV 中 CV_8UC1,CV_32FC3,CV_32S等参数的含义
1233 3
|
小程序 定位技术 Android开发
小程序质量提升丨定位问题解决方案(错误码11)
小程序质量提升丨定位问题解决方案(错误码11)
355 6
|
XML 自然语言处理 开发者
定制化IDL文件设计:面向具体需求的接口定义方法
定制化IDL文件设计:面向具体需求的接口定义方法
495 2
|
PyTorch 算法框架/工具 并行计算
PyTorch 2.2 中文官方教程(二十)(3)
PyTorch 2.2 中文官方教程(二十)
414 0
|
存储 运维 Linux
Linux内核学习(三):Bootloader的特种兵-Uboot(一)
Linux内核学习(三):Bootloader的特种兵-Uboot(一)
259 0
|
关系型数据库 MySQL
delphi xe 之路(27)XE7 Datasnap使用dbExpress连接MySQL
<p style="margin-top:14px; margin-bottom:14px; padding-top:0px; padding-bottom:0px; word-break:normal; word-wrap:break-word; font-size:16px; line-height:28px; font-family:simsun; text-indent:2em;
3946 0
|
Java 关系型数据库 MySQL
基于SSM的校园失物招领系统设计与实现。Javaee项目。
基于SSM的校园失物招领系统设计与实现。Javaee项目。