Skip to content

安装CUDA:AI大模型软件实现GPU加速(2025最新版)

本文主要介绍在Windows系统中,针对NVIDIA GeForce RTX 50 系列显卡,安装CUDA 12.9版本,实现大模型软件加速的方法。 NVIDIA GeForce RTX 旧版的显卡也都支持CUDA,只是版本有所不同。由于AMD的ROCm在Windows中运行需要WSL,整个安装方式和CUDA差异较大,后续我们会在其他文档中详细说明。

魔当(LM Downloader)是一个免费,易上手,且功能强大的AI大模型软件下载工具,帮助用户在本地一键部署Spark-TTS、ComfyUI、FramePack、Ollama等软件。 在使用**魔当(LM Downloader)**下载和安装了AI大模型软件后,很多用户都遇到过这样的困扰:明明电脑配置还不错,但软件的生成速度却特别慢,CPU占用率居高不下,而强大的GPU却基本处于闲置状态。比如安装了ComfyUI图像视频生成软件,在生成复杂内容时,等待时间漫长,任务管理器里显示CPU忙得不可开交,而GPU却“无所事事”。这是因为这些软件通常需要进行大量的计算,而CPU虽然功能强大,但在处理这类大规模并行计算任务时,效率远不如GPU。如果没有正确配置相关的加速工具,就无法充分发挥GPU的性能,导致软件运行缓慢。

现阶段,使用NVIDIA GPU进行大模型训练和推理加速,是比较主流的选择,CUDA 自 2006 年推出,经过多年迭代,已形成 “硬件 - 软件 - 开发者” 的成熟闭环,生态高度统一。

很多 AI 应用软件(如 ComfyUI、LLaMA、Stable Diffusion、Spark-TTS)都是用 PyTorch 开发的。类似“安卓系统”的生态——大家都用,所以软件也默认支持。当你用AI画画或聊天时,软件会通过PyTorch调用GPU(NVIDIA显卡需要CUDA支持),这样生成内容更快、更流畅。如果你的电脑没有NVIDIA显卡(或没装CUDA),软件可能只能用CPU,速度会慢很多。

各芯片厂家的工具介绍

  • NVIDIA的CUDA:CUDA是NVIDIA在2006年推出的通用并行计算架构,专门用于解决GPU上的并行计算问题。它提供了一套完整的开发工具和库,让开发者能够方便地利用NVIDIA GPU的并行计算能力来加速程序运行。CUDA生态系统成熟,广泛应用于学术研究和工业界,支持众多深度学习框架和科学计算库。不过,CUDA只能用于NVIDIA的GPU。
  • AMD的ROCm:ROCm是AMD在2015年为对标CUDA生态而开发的开源软件开发平台,主要为HPC和超大规模GPU计算提供支持。它包含开发工具、软件框架、库、编译工具和编程模型等。ROCm支持AMD的GPU,并且正在向其他厂商的硬件开放,其生态系统虽然相对较新,但发展迅速,也支持多种深度学习框架。
  • Intel的OpenVINO,oneAPI,IPEX:Intel推出了酷睿Ultra系列处理器,如酷睿Ultra 200系列,它们提供了强大的AI处理能力,包括高达120 TOPS的算力,足以支持本地部署的大规模AI模型。Intel 作为 x86 处理器龙头,需兼容 Windows/Linux、PyTorch/TensorFlow 等多元生态,因此采用开放标准 + 模块化工具的策略:
    • OpenVINO™:基于开放 VPU API,支持跨品牌硬件(如 Intel/AMD/ARM 的 NPU);
    • oneAPI:遵循开放编程模型(如 SYCL),兼容 CPU/GPU/FPGA 等异构设备;
    • IPEX/Neural Compressor:作为框架扩展,适配 PyTorch/TensorFlow 的原生接口。

加速推理原理

  • CUDA:NVIDIA的GPU具有大量的核心,可以同时处理多个计算任务。CUDA通过将计算任务分解为多个小任务,分配到不同的GPU核心上并行执行,大大提高了计算效率。例如,在AI大模型的训练和推理过程中,涉及到大量的矩阵运算,CUDA可以利用GPU的并行性快速完成这些运算,相比CPU串行计算要快得多。
  • ROCm:类似地,ROCm也利用AMD GPU的并行计算能力来加速计算。它通过HIP(Heterogeneous - compute Interface for Portability)编程模型,将任务分配到AMD GPU的各个核心上进行并行处理。同时,ROCm包含了针对机器学习和HPC场景优化的库,如rocBLAS、rocFFT等,这些库经过高度优化,能够充分发挥AMD GPU的性能,加速AI大模型软件的运行。

检查NVIDIA独立显卡信息

  • Windows: 右键点击桌面空白处,选择“显示设置”,然后滚动到底部点击“高级显示设置”。在这里,您可以查看连接到系统的显示器以及对应的图形适配器信息。

 

 

  • 通过设备管理器检查:按下Win + X组合键,显示出系统菜单,点击“设备管理器”,找到“显示适配器”项,点击展开,其中显示的显卡名称可帮助判断是否为独立显卡。一般来说,独立显卡的型号会比较具体,且通常会标明品牌和系列。

比如,以下图片中,显示适配器,只有Intel的集成显卡。

比如,以下图片中,显示适配器,有AMD的集成显卡,以及NVIDIA GeForce RTX 5060 Ti独立显卡。

下载和安装驱动

去NVIDIA网站下载驱动,尽量使用新版本,如果不追求新游戏的及时支持,就选“Studio 驱动程序”,更稳定可靠。 https://www.nvidia.com/en-us/geforce/drivers/

中国大陆地区用户,请使用这个地址: https://www.nvidia.cn/geforce/drivers/

其他地区用户请根据自己实际情况选择地区。

安装驱动时,如果没有特殊需求,选择“精简”就可以了。

 

检查显卡对CUDA支持的版本

  • 检查CUDA支持及版本:对于NVIDIA显卡,有两种方式查看可安装的CUDA版本。

第一种,打开NVIDIA控制面板,点击“系统信息”,再点击“组件”,可查看当前显卡驱动最高支持的CUDA版本。

注意图中的 NVIDIA CUDA 12.9.76 driver,说明支持安装12.9版本的CUDA。

第二种,打开命令提示符或PowerShell,输入nvidia-smi命令查看显卡信息及支持的CUDA版本。

这里的关键信息是CUDA Version: 12.9,说明支持安装12.9版本的CUDA。

每个人电脑,看到的版本可能不同,请按自己电脑的情况判断。

下载安装CUDA

  1. 下载:点击链接https://developer.nvidia.com/cuda-downloads,进入 CUDA首页,根据显卡支持的CUDA版本以及电脑系统选择合适的CUDA安装包下载。例如,选择Windows - > x86_64 - > 11 - > exe(local)格式的文件进行下载。注意,exe(local)包含全部功能,文件比较大,方便你离线安装,约为3.31 GB。而exe(network)文件小,约为13.9 MB,安装过程中,必须依赖网络。
  1. 安装:双击下载的EXE安装包,提取安装文件时保持默认设置,等待文件提取和系统兼容性检查完成。阅读许可协议后点击“同意并继续”。如果没有特殊需求,可选择“精简”安装;如果对CUDA开发比较了解,可选择“自定义”安装,取消勾选不必要的组件,进行安装。

 

碰到“CUDA Visual Studio Integration”,如何选择?如果你没安装 Visual Studio,很可能会出现这个提示,意思是CUDA的部分功能会无法正常运行,普通用户可以忽略,只要打勾,点击NEXT按钮就行了。

  1. 验证安装:打开命令提示符,输入“nvcc --version”,若能显示CUDA的版本信息,则说明安装成功。
C:\Users\LMD>nvcc --version
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2025 NVIDIA Corporation
Built on Wed_Apr__9_19:29:17_Pacific_Daylight_Time_2025
Cuda compilation tools, release 12.9, V12.9.41
Build cuda_12.9.r12.9/compiler.35813241_0

注意,如果之前已经安装的应用还是未能启用GPU加速,请用魔当重新安装该应用。重新安装不会删除您的数据和模型文件。而删除应用的操作,往往会删除模型和相关数据文件。

如果仍然遇到问题,请联系我们的技术支持团队。tech@daiyl.com