旅行族报道3月26日消息,据Neowin报道,许多组织都利用云来满足他们在存储和人工智能解决方案方面的数据相关需求。为了确保敏感数据的隐私和安全,必须使用加密计算。这基本上是一套硬件和软件的控制,管理数据如何被共享和使用,以及数据所有者如何验证这些过程。
英特尔和AMD的CPU已经能够创建可信的执行环境(TEEs),在CPU层面为加密计算提供支持。TEEs确保数据在静止状态、传输过程中,甚至在使用过程中都保持加密。它还提供远程验证,以验证硬件的配置,并只对所需的算法授予数据访问权。微软在Azure上的加密计算解决方案也利用同样的原则。
然而,现有的解决方案与内置在CPU中的TEE联系在一起,所以微软现在希望将这一边界也扩展到GPU,确保数据可以安全地转移到更强大的硬件上以满足计算需求。当涉及到组织的人工智能工作负载时,这就显得更加重要,微软正在与英伟达在这方面进行合作。
微软已经指出,这不是一个简单的实现,因为它需要保护GPU免受各种攻击,同时确保Azure主机对管理活动有足够的控制。即使在硬件层面,该实施方案也不能对热能和性能产生负面影响,而且理想情况下,也不需要改变现有的GPU微架构。该公司的愿景包括加密GPU的以下功能:
一种新的模式,GPU上的所有敏感状态,包括GPU内存,都与主机隔离。
在GPU芯片上有硬件信任根,可以生成可验证的证明,捕获GPU的所有安全敏感状态,包括所有固件和微代码。
对GPU驱动程序进行扩展,以验证GPU的证明,建立与GPU的安全通信通道,并透明地加密CPU和GPU之间的所有通信。
硬件支持通过NVLink透明地加密所有GPU-GPU通信。
在客户操作系统和管理程序中支持将GPU安全地连接到CPUTEE,即使CPUTEE的内容是加密的。
微软表示,已经在Azure上的NvidiaA100TensorCoreGPU中建立了加密计算能力。这通过安培保护内存(APM)新功能完成。实施细节在本质上是高度技术性的。
这个解决方案现在可以通过AzureConfidentialGPUVMs进行私密预览。企业目前可以使用最多4个NvidiaA100TensorCoreGPU的虚拟机,用于他们的Azure工作负载。微软的下一步包括确保更广泛地采用这些做法,并与Nvidia合作,在其Hopper架构上进一步加强现有的实施。