文章詳情頁(yè)

Python api構(gòu)建tensorrt加速模型的步驟詳解

瀏覽：14日期：2022-08-07 08:24:30

目錄一、創(chuàng)建TensorRT有以下幾個(gè)步驟：二、Python api和C++ api在實(shí)現(xiàn)網(wǎng)絡(luò)加速有什么區(qū)別？三、構(gòu)建TensorRT加速模型 3.1 加載tensorRT3.2 創(chuàng)建網(wǎng)絡(luò)3.3 ONNX構(gòu)建engine一、創(chuàng)建TensorRT有以下幾個(gè)步驟：

1.用TensorRT中network模塊定義網(wǎng)絡(luò)模型2.調(diào)用TensorRT構(gòu)建器從網(wǎng)絡(luò)創(chuàng)建優(yōu)化的運(yùn)行時(shí)引擎3.采用序列化和反序列化操作以便在運(yùn)行時(shí)快速重建4.將數(shù)據(jù)喂入engine中進(jìn)行推理

二、Python api和C++ api在實(shí)現(xiàn)網(wǎng)絡(luò)加速有什么區(qū)別？

個(gè)人看法1.python比c++更容易讀并且已經(jīng)有很多包裝很好的科學(xué)運(yùn)算庫(kù)（numpy，scikit等）,2.c++是接近硬件的語(yǔ)言，運(yùn)行速度比python快很多很多，因?yàn)閜ython是解釋性語(yǔ)言c++是編譯型語(yǔ)言

三、構(gòu)建TensorRT加速模型 3.1 加載tensorRT

1.import tensorrt as trt2.為tensorrt實(shí)現(xiàn)日志報(bào)錯(cuò)接口方便報(bào)錯(cuò)，在下面的代碼我們只允許警告和錯(cuò)誤消息才打印，TensorRT中包含一個(gè)簡(jiǎn)單的日志記錄器Python綁定。

TRT_LOGGER = trt.Logger(trt.Logger.WARNING)

3.2 創(chuàng)建網(wǎng)絡(luò)

簡(jiǎn)單來(lái)說(shuō)就是用tensorrt的語(yǔ)言來(lái)構(gòu)建模型，如果自己構(gòu)建的話，主要是靈活但是工作量so large，一般還是用tensorrt parser來(lái)構(gòu)建（1）Caffe框架的模型可以直接用tensorrt內(nèi)部解釋器構(gòu)建（2）除caffe，TF模型以外其他框架，先轉(zhuǎn)成ONNX通用格式，再用ONNX parser來(lái)解析（3）TF可以直接通過(guò)tensorrt內(nèi)部的UFF包來(lái)構(gòu)建，但是tensorrt uff包中并支持所有算子（4）自己將wts放入自己構(gòu)建的模型中，工作量so large，但是很靈活。

3.3 ONNX構(gòu)建engine

因?yàn)椴┲饔玫腛NNXparser來(lái)構(gòu)建engine的，下面就介紹以下ONNX構(gòu)建engine，步驟如下：（1）導(dǎo)入tensorrt

import tensorrt as trt

（2）創(chuàng)建builder，network和相應(yīng)模型的解釋器，這里是onnxparser

EXPLICIT_BATCH = 1 << (int)(trt.NetworkDefinitionCreationFlag.EXPLICIT_BATCH)with builder = trt.Builder(TRT_LOGGER) as builder,builder.create_network(EXPLICIT_BATCH) as network, trt.OnnxParser(network, TRT_LOGGER) as parser:with open(model_path, ’rb’) as model:parser.parse(model.read())

這個(gè)代碼的主要意思是，構(gòu)建報(bào)錯(cuò)日志，創(chuàng)建build，network和onnxparser，然后用parser讀取onnx權(quán)重文件。

3.3.1 builder介紹

builder功能之一是搜索cuda內(nèi)核目錄，找到最快的cuda以求獲得最快的實(shí)現(xiàn)，因此有必要使用相同的GPU進(jìn)行構(gòu)建（相同的操作，算子進(jìn)行融合，減少IO操作），engine就是在此基礎(chǔ)上運(yùn)行的，builder還可以控制網(wǎng)絡(luò)以什么精度運(yùn)行（FP32,FP16,INT8），還有兩個(gè)特別重要的屬性是最大批處理大小和最大工作空間大小。

builder.max_batch_size = max_batch_sizebuilder.max_workspace_size = 1 << 20

3.3.2序列化模型

序列化和反序列化模型的主要是因?yàn)閚etwork和定義創(chuàng)建engine很耗時(shí)，因此可以通過(guò)序列化一次并在推理時(shí)反序列化一次來(lái)避免每次應(yīng)用程序重新運(yùn)行時(shí)重新構(gòu)建引擎。note：序列化引擎不能跨平臺(tái)或TensorRT版本移植。引擎是特定于它們所構(gòu)建的GPU模型(除了平臺(tái)和TensorRT版本)代碼如下：

#序列化模型到模型流serialized_engine = engine.serialize()#反序列化模型流去執(zhí)行推理，反序列化需要?jiǎng)?chuàng)建一個(gè)運(yùn)行時(shí)對(duì)象with trt.Runtime(TRT_LOGGER) as runtime:engine = runtime.deserialize_cuda_engine(serialized_engine)#也可以將序列化模型writewith open(“sample.engine”, “wb”) as f:f.write(engine.serialize())#然后再讀出來(lái)進(jìn)行反序列化with open(“sample.engine”, “rb”) as f, trt.Runtime(TRT_LOGGER) as runtime:engine = runtime.deserialize_cuda_engine(f.read())

3.3.3執(zhí)行推理過(guò)程

note：下面過(guò)程的前提是已經(jīng)創(chuàng)建好了engine

# 為輸入和輸出分配一些主機(jī)和設(shè)備緩沖區(qū):#確定尺寸并創(chuàng)建頁(yè)面鎖定內(nèi)存緩沖區(qū)h_input = cuda.pagelocked_empty(trt.volume(engine.get_binding_shape(0)),dtype=np.float32)h_output =cuda.pagelocked_empty(trt.volume(engine.get_binding_shape(1)),dtype=np.float32)#為輸入和輸出分配設(shè)備內(nèi)存d_input = cuda.mem_alloc(h_input.nbytes)d_output = cuda.mem_alloc(h_output.nbytes)#創(chuàng)建一個(gè)流，在其中復(fù)制輸入/輸出并運(yùn)行推斷stream = cuda.Stream()

# 創(chuàng)建一些空間來(lái)存儲(chǔ)中間激活值，因?yàn)閑ngine保存了network定義和訓(xùn)練時(shí)的參數(shù)，這些都是構(gòu)建的上下文執(zhí)行的。with engine.create_execution_context() as context: # 輸入數(shù)據(jù)傳入GPUcuda.memcpy_htod_async(d_input, h_input, stream) # 執(zhí)行推理. context.execute_async(bindings=[int(d_input), int(d_output)], stream_handle=stream.handle) # 將推理后的預(yù)測(cè)結(jié)果從GPU上返回. cuda.memcpy_dtoh_async(h_output, d_output, stream) # 同步流 stream.synchronize() # 返回主機(jī)輸出 return h_output

note：一個(gè)engine可以有多個(gè)執(zhí)行上下文，允許一組權(quán)值用于多個(gè)重疊推理任務(wù)。例如，可以使用一個(gè)引擎和一個(gè)上下文在并行CUDA流中處理圖像。每個(gè)上下文將在與引擎相同的GPU上創(chuàng)建。

到此這篇關(guān)于Python api構(gòu)建tensorrt加速模型的文章就介紹到這了,更多相關(guān)Python api tensorrt加速模型內(nèi)容請(qǐng)搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)！

Python 編程

上一條：Python基礎(chǔ)之python循環(huán)控制語(yǔ)句break/continue詳解下一條：python中re.findall函數(shù)實(shí)例用法

相關(guān)文章：

1. php使用正則驗(yàn)證密碼字段的復(fù)雜強(qiáng)度原理詳細(xì)講解原創(chuàng)2. asp.net core 認(rèn)證和授權(quán)實(shí)例詳解3. 基于PHP做個(gè)圖片防盜鏈4. 基于javaweb+jsp實(shí)現(xiàn)企業(yè)車輛管理系統(tǒng)5. Jsp servlet驗(yàn)證碼工具類分享6. XML在語(yǔ)音合成中的應(yīng)用7. ASP將數(shù)字轉(zhuǎn)中文數(shù)字(大寫金額)的函數(shù)8. ASP.NET MVC使用Boostrap實(shí)現(xiàn)產(chǎn)品展示、查詢、排序、分頁(yè)9. Jsp+Servlet實(shí)現(xiàn)文件上傳下載文件列表展示（二）10. jscript與vbscript 操作XML元素屬性的代碼

排行榜

					
					如何實(shí)現(xiàn)vue的tree組件
php中文亂碼問(wèn)題
詳解JavaScript錯(cuò)誤捕獲
Java System類兩個(gè)常用方法代碼實(shí)例
Spring Session的使用示例
django model的update時(shí)auto_now不被更新的原因及解決方式
BEA增加了Weblogic Server對(duì)Spring的支持
Django操作session 的方法
java字符串格式化輸出實(shí)例講解
vue實(shí)現(xiàn)的多頁(yè)面項(xiàng)目如何優(yōu)化打包的步驟詳解
如何用JS有效的壓縮圖片