您好,游客选择字体:繁體
首页 >> 服务器测评 >> 如何高效获取GPU存储

如何高效获取GPU存储

amdin 2020-06-22 0
浏览次数112

支持AI人工进行智能和ML机器可以学习工作部署的数据信息中心主要依靠一个基于图形图像处理单元(GPU)的服务器为其计算密集型企业架构设计提供社会支持。到2024年,在多个不同行业中,GPU使用量的增长将使GPU服务器的复合年增长率超过31%。这意味着将有更多的系统架构师承担责任承担相应的职责,以确保GPU系统研究具有中国最高的性能和成本管理效益。

      然而,对于基于GPU的AI / ML工作负载优化存储是不容易的。高速存储系统必须处理大量数据,同时需要注意两个以下挑战:

      1、服务器资源利用率。GPU服务器通过对于学生训练一个大型AI/ML数据集所需的矩阵进行乘法和卷积可以非常具有高效。但是,GPU服务器的成本是一种典型CPU服务器的3倍。为了能够保持ROI,IT员工需要让GPU使用率已经足够饱和。但不幸的是,很多工作部署管理经验研究表明GPU仅有30%的使用率。

      2、GPU存储瓶颈。 ML训练数据集通常远远超过GPU本地RAM容量,导致分析人员称为GPU存储瓶颈的I/O瓶颈。 人工智能和ML系统最终不得不等待对存储资源的访问,因为它们的巨大数据阻碍了及时访问,从而影响了性能。

      为了解决这个问题,nvme 闪存固态硬盘已逐渐取代标准闪存固态硬盘,成为铝 / 毫升贮存器的首选。 Nvme 支持大规模 io 并行性,其性能大约是可比 sata ssds 的6倍,延迟低10倍,功率效率更高。 就像 gpu 驱动高性能计算一样,nvme 闪存在降低延迟的同时,实现了更高的存储性能、带宽和吞吐量。 Nvme flash 解决方案允许人工智能和机器学习数据集更快地加载到应用程序中,避免 gpu 数据不足。

      此外,NVMe在面料可虚拟化的整个高速网络上Nvme资源,它可以更好地适用于NVMeoF技术AI和ML的存储基础设施。 NVMeoF的GPU可以直接访问池NVMe灵活性,让您可以使用本地闪存的性能来访问所有资源。这使得AI数据科学家和研究人员HPC可以对应用程序提供更多的数据,使他们能得到更好的结果更快。

      要获得最佳的GPU存储系统性能,就需要我们根据企业业务发展目标对基础架构可以进行微调。这里有四种方法可供考虑。

      1、一个有效的扩展GPU的存储容量

      例如,某存储管理公司为不需要运行发展自己的AI堆栈的组织学生提供了AI即服务企业解决问题方案,因此,这家公司社会需要我们最大的ROI和可扩展性。特别是对多租户的需求,这意味着为满足使用各种教育工作负载和客户端的性能设计要求,基础知识架构必须随时准备就绪。

       基础设施团队在部署其第一个GPU服务器系统的早期了解到,本地GPU服务器的存储容量太有限,只有4TB的本地存储,而客户的工作量需要10到100TB的数据。 该团队研究了外部存储选项,并指出使用传统数组将获得更多的容量,但性能最终会阻碍AI工作负载,因为应用程序需要将数据移入和移出GPU系统,以中断工作流并影响系统效率。

      最终,通过使用基于快速 rdma 网络的软件定义存储,结合 nvme 闪存(加载数据集的速度提高10倍) ,通过消除 gpu 瓶颈和提高 roi,公司可以实现更高的 gpu 产能利用率,现有 gpu 得到更充分的利用。

      2、大规模调整性能

      快速增长和规模ML训练数据集的AI部署增加了计算基础设施的负担,STFC(科学与技术设施委员会)是其中的典型代表。虽然STFC已添加到提供高端GPU计算服务器支持,但缺乏资源,在数百研究者需要的企业级存储功能STFC扩张。

      通过在具有RDMA功能的高速发展网络上实现NVMe-over-Fabrics协议,大型AI/ML用户组管理可以进行虚拟化NVMe SSD在各种应用服务器上未使用的存储信息资源池,因此对于它们的性能就像在本地企业一样。通过自己这样做,可以在一个小时内完成工作机器语言学习教育培训主要任务,而以前则需要三到四天。即使学生具有非常复杂的模型作为训练教学任务,GPU存储也不再是瓶颈。

3、NVMe存储池

      当AI和ML应用进行程序设计涉及从许多GPU服务器通过访问中国大量小文件时,作为一个存储技术基础知识架构就必须部署并行分布式文件信息系统。并行文件系统还使存储更容易得到实现企业大多数AI/ML使用过程中所需的高吞吐量和低延迟。在并行文件控制系统下具有经济快速、灵活的池化NVMe存储,可以有效改善对元数据的处理,从而能够实现自己更高的读取性能和更低的延迟,从而不断提高GPU服务器的利用率。

      例如,一家超大型技术提供商最近推出了一种AI解决方案,用于预测保险公司使用的车辆碰撞场景。 为了开发应用程序背后的AI逻辑,应用程序工作流涉及到培训模型,方法是摄入多达2000万个小文件数据集,每个文件大小在KB150-700之间。 数据提取通常每8小时进行一次,速度为100万个文件,或每客户最多每秒35000个文件。

      通过在并行分散式档案系统中使用合用的 nvme 存储,技术提供者消除了它遇到的存储瓶颈,并将存储性能提高了3-4倍。

      4、检查GPU专用的“高速公路”       新的数据信息中心架构正在以统一的方式可以提高企业服务器、网络和存储的性能。一种类似的方法以及将来自多个供应商的基础知识架构设计元素与GPU优化的网络和存储系统进行一个集成,以在GPU内存和存储学生之间打开直接的数据发展通道,从而达到完全绕开CPU。这使数据分析能够在GPU、存储和网络安全设备管理提供的“开放经济高速公路”上进行有效传输,从而得到实现了对NVMe企业级卓越性能的无障碍访问。

文章来源:http://www.rakceping.com/c5/

全部评论:0