业界 | TensorFlow 携手 NVIDIA,使用 TensorRT 优化 TensorFlow Serving 性能( 四 )

https://raw.githubusercontent.com/tensorflow/serving/master/tensorflow_serving/example/resnet_client.py

$ python /tmp/resnet/resnet_client.py

Prediction class: 286, avg latency: 18.0469 ms

docker run命令会启动 TensorFlow Serving 服务器,以提供 /tmp/resnet中已下载的 SavedModel,并在主机中显示 REST API端口 8501。resnet_client.py会给服务器发送一些图像,并返回服务器所作的预测。现在让我们停止运行 TensorFlow Serving 容器,来释放其所占用的 GPU 资源:

$ docker kill tfserving_resnet

利用 TF-TRT 转换和提供模型现在,我们有了可以运行的模型。为了能从 TensorRT 受益,我们需要在 TensorFlow Serving Docker 容器内运行转换命令,从而将现有模型转换为使用 TensorRT 运行运算的模型:

$ docker pull tensorflow/tensorflow:latest-gpu

$ docker run --rm --runtime=nvidia -it

推荐阅读