📄️ CUDA: 流和并发
CUDA提供了一致的抽象,来控制并发访问,以便用户最大化、完整地利用单块GPU设备的资源能力。
📄️ PyTorch CUDA 语义
PyTorch 以易用性为核心,按照一致的原则组织了对GPU资源的访问。
📄️ 线程,进程,GIL
在python环境下使用多线程部署深度学习服务时一大难以克服的问题就是GIL锁。
📄️ 服务性能的关键评价指标
在评估一个服务的性能时,有几个关键的指标需要考虑。这些指标可以帮助我们了解服务的延迟、吞吐量、错误率等方面的表现。下面是一些常用的关键评价指标。