业界 | TensorFlow 携手 NVIDIA,使用 TensorRT 优化 TensorFlow Serving 性能( 六 )

$ docker run --rm --runtime=nvidia -p 8501:8501

--name tfserving_resnet

-v /tmp/resnet_trt:/models/resnet

-e MODEL_NAME=resnet

-t tensorflow/serving:latest-gpu &

… server.cc:313] Running gRPC ModelServer at 0.0.0.0:8500 …

… server.cc:333] Exporting HTTP/REST API at:localhost:8501 …

之后向它发送请求:

$ python /tmp/resnet/resnet_client.py

Prediction class: 286, avg latency: 15.0287 ms

最后,停止运行容器:

$ docker kill tfserving_resnet

我们可以看到,使用 TensorFlow Serving 和 Docker 生成经 TF-TRT 转换的模型与创建一个普通的模型一样简单。此外,作为一次演示,上文中的性能数值仅适用于我们所使用的模型和运行该案例的设备,不过它的确体现出使用 TF-TRT 所带来的性能优势。

推荐阅读