安装NVIDIA驱动和CUDA：AI大模型软件实现GPU加速（2025最新版）

下载链接

NVIDIA GPU 驱动最新版

尽量安装较新的驱动，对AI支持得更好。

中国大陆用户： https://www.nvidia.cn/geforce/drivers/

其他地区用户： https://www.nvidia.com/en-us/geforce/drivers/

只要提前安装了驱动，再使用魔当下载AI应用，就能自动为应用下载对应的CUDA，不需要另外安装CUDA。

对于普通用户，以下内容可以忽略，如果想更深入学习，可继续阅读。

CUDA 工具包

什么时候需要CUDA？

编译需要CUDA的C++扩展：当你或你使用的某个库（如apex）需要从源码编译与CUDA相关的C++/CUDA代码时，编译器（nvcc）和完整的头文件（include）是必需的。
使用NVIDIA提供的其他工具：例如性能分析工具nvprof或Nsight Systems，这些工具包含在完整的CUDA Toolkit中。

CUDA最新版：

CUDA 13.0 Update 2: https://developer.nvidia.com/cuda-downloads

旧版本：

CUDA 13.0 Update 1: https://developer.nvidia.com/cuda-13-0-1-download-archive

CUDA 13.0: https://developer.nvidia.com/cuda-13-0-0-download-archive

CUDA 12.9 Update 1：https://developer.nvidia.com/cuda-12-9-1-download-archive

CUDA 12.9：https://developer.nvidia.com/cuda-12-9-0-download-archive

CUDA 12.8：https://developer.nvidia.com/cuda-12-8-0-download-archive

版本查看命令：

NVIDIA显卡信息，和支持的CUDA版本 nvidia-smi
已安装的CUDA版本 nvcc --version

背景知识

本文主要介绍在Windows系统中，NVIDIA GeForce RTX 系列显卡，安装驱动程序和CUDA，实现大模型软件加速的方法。

魔当(LM Downloader)是一个免费，易上手，且功能强大的AI大模型软件下载工具，帮助用户在本地一键部署Spark-TTS、ComfyUI、FramePack、Ollama、IndexTTS2等软件。

在使用**魔当(LM Downloader)**下载和安装了AI大模型软件后，很多用户都遇到过这样的困扰：明明电脑配置还不错，但软件的生成速度却特别慢，CPU占用率居高不下，而强大的GPU却基本处于闲置状态。比如安装了ComfyUI图像视频生成软件，在生成复杂内容时，等待时间漫长，任务管理器里显示CPU忙得不可开交，而GPU却“无所事事”。这是因为这些软件通常需要进行大量的计算，而CPU虽然功能强大，但在处理这类大规模并行计算任务时，效率远不如GPU。如果没有正确配置相关的加速工具，就无法充分发挥GPU的性能，导致软件运行缓慢。

现阶段，使用NVIDIA GPU进行大模型训练和推理加速，是比较主流的选择，CUDA 自 2006 年推出，经过多年迭代，已形成 “硬件 - 软件 - 开发者” 的成熟闭环，生态高度统一。

很多 AI 应用软件（如 ComfyUI、LLaMA、Stable Diffusion、Spark-TTS）都是用 PyTorch 开发的。类似“安卓系统”的生态——大家都用，所以软件也默认支持。当你用AI画画或聊天时，软件会通过PyTorch调用GPU（NVIDIA显卡需要CUDA支持），这样生成内容更快、更流畅。如果你的电脑没有NVIDIA显卡（或没装CUDA），软件可能只能用CPU，速度会慢很多。

各芯片厂家的工具介绍

NVIDIA的CUDA：CUDA是NVIDIA在2006年推出的通用并行计算架构，专门用于解决GPU上的并行计算问题。它提供了一套完整的开发工具和库，让开发者能够方便地利用NVIDIA GPU的并行计算能力来加速程序运行。CUDA生态系统成熟，广泛应用于学术研究和工业界，支持众多深度学习框架和科学计算库。不过，CUDA只能用于NVIDIA的GPU。
AMD的ROCm：ROCm是AMD在2015年为对标CUDA生态而开发的开源软件开发平台，主要为HPC和超大规模GPU计算提供支持。它包含开发工具、软件框架、库、编译工具和编程模型等。ROCm支持AMD的GPU，并且正在向其他厂商的硬件开放，其生态系统虽然相对较新，但发展迅速，也支持多种深度学习框架。
Intel的OpenVINO，oneAPI，IPEX：Intel推出了酷睿Ultra系列处理器，如酷睿Ultra 200系列，它们提供了强大的AI处理能力，包括高达120 TOPS的算力，足以支持本地部署的大规模AI模型。Intel 作为 x86 处理器龙头，需兼容 Windows/Linux、PyTorch/TensorFlow 等多元生态，因此采用开放标准 + 模块化工具的策略：
- OpenVINO™：基于开放 VPU API，支持跨品牌硬件（如 Intel/AMD/ARM 的 NPU）；
- oneAPI：遵循开放编程模型（如 SYCL），兼容 CPU/GPU/FPGA 等异构设备；
- IPEX/Neural Compressor：作为框架扩展，适配 PyTorch/TensorFlow 的原生接口。

加速推理原理

CUDA：NVIDIA的GPU具有大量的核心，可以同时处理多个计算任务。CUDA通过将计算任务分解为多个小任务，分配到不同的GPU核心上并行执行，大大提高了计算效率。例如，在AI大模型的训练和推理过程中，涉及到大量的矩阵运算，CUDA可以利用GPU的并行性快速完成这些运算，相比CPU串行计算要快得多。
ROCm：类似地，ROCm也利用AMD GPU的并行计算能力来加速计算。它通过HIP（Heterogeneous - compute Interface for Portability）编程模型，将任务分配到AMD GPU的各个核心上进行并行处理。同时，ROCm包含了针对机器学习和HPC场景优化的库，如rocBLAS、rocFFT等，这些库经过高度优化，能够充分发挥AMD GPU的性能，加速AI大模型软件的运行。

检查NVIDIA独立显卡信息

Windows: 右键点击桌面空白处，选择“显示设置”，然后滚动到底部点击“高级显示设置”。在这里，您可以查看连接到系统的显示器以及对应的图形适配器信息。

通过设备管理器检查：按下Win + X组合键，显示出系统菜单，点击“设备管理器”，找到“显示适配器”项，点击展开，其中显示的显卡名称可帮助判断是否为独立显卡。一般来说，独立显卡的型号会比较具体，且通常会标明品牌和系列。

比如，以下图片中，显示适配器，只有Intel的集成显卡。

比如，以下图片中，显示适配器，有AMD的集成显卡，以及NVIDIA GeForce RTX 5060 Ti独立显卡。

下载和安装驱动

去NVIDIA网站下载驱动，尽量使用新版本，如果不追求新游戏的及时支持，就选“Studio 驱动程序”，更稳定可靠。 https://www.nvidia.com/en-us/geforce/drivers/

中国大陆地区用户，请使用这个地址： https://www.nvidia.cn/geforce/drivers/

其他地区用户请根据自己实际情况选择地区。

安装驱动时，如果没有特殊需求，选择“精简”就可以了。

检查显卡对CUDA支持的版本

检查CUDA支持及版本：对于NVIDIA显卡，有两种方式查看可安装的CUDA版本。

第一种，打开NVIDIA控制面板，点击“系统信息”，再点击“组件”，可查看当前显卡驱动最高支持的CUDA版本。

注意图中的 NVIDIA CUDA 12.9.76 driver，说明支持安装12.9版本的CUDA。

第二种，打开命令提示符或PowerShell，输入nvidia-smi命令查看显卡信息及支持的CUDA版本。

这里的关键信息是CUDA Version: 12.9，说明支持安装12.9版本的CUDA。

每个人电脑，看到的版本可能不同，请按自己电脑的情况判断。

下载安装CUDA

下载：点击链接https://developer.nvidia.com/cuda-downloads，进入 CUDA首页，根据显卡支持的CUDA版本以及电脑系统选择合适的CUDA安装包下载。例如，选择Windows - > x86_64 - > 11 - > exe(local)格式的文件进行下载。注意，exe(local)包含全部功能，文件比较大，方便你离线安装，约为3.31 GB。而exe(network)文件小，约为13.9 MB，安装过程中，必须依赖网络。

安装：双击下载的EXE安装包，提取安装文件时保持默认设置，等待文件提取和系统兼容性检查完成。阅读许可协议后点击“同意并继续”。如果没有特殊需求，可选择“精简”安装；如果对CUDA开发比较了解，可选择“自定义”安装，取消勾选不必要的组件，进行安装。

碰到“CUDA Visual Studio Integration”，如何选择？如果你没安装 Visual Studio，很可能会出现这个提示，意思是CUDA的部分功能会无法正常运行，普通用户可以忽略，只要打勾，点击NEXT按钮就行了。

验证安装：打开命令提示符，输入“nvcc --version”，若能显示CUDA的版本信息，则说明安装成功。

以下是13.0 Update 1的版本信息：

nvcc --version
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2025 NVIDIA Corporation
Built on Wed_Aug_20_13:58:20_Pacific_Daylight_Time_2025
Cuda compilation tools, release 13.0, V13.0.88
Build cuda_13.0.r13.0/compiler.36424714_0

以下是13.0的版本信息：

C:\Users\LMD>nvcc --version
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2025 NVIDIA Corporation
Built on Wed_Jul_16_20:06:48_Pacific_Daylight_Time_2025
Cuda compilation tools, release 13.0, V13.0.48
Build cuda_13.0.r13.0/compiler.36260728_0

以下是12.9 Update 1的版本信息：

C:\Users\LMD>nvcc --version
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2025 NVIDIA Corporation
Built on Tue_May_27_02:24:01_Pacific_Daylight_Time_2025
Cuda compilation tools, release 12.9, V12.9.86
Build cuda_12.9.r12.9/compiler.36037853_0

以下是12.9的版本信息：

C:\Users\LMD>nvcc --version
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2025 NVIDIA Corporation
Built on Wed_Apr__9_19:29:17_Pacific_Daylight_Time_2025
Cuda compilation tools, release 12.9, V12.9.41
Build cuda_12.9.r12.9/compiler.35813241_0

注意，如果之前已经安装的应用还是未能启用GPU加速，请用魔当重新安装该应用。重新安装不会删除您的数据和模型文件。而删除应用的操作，往往会删除模型和相关数据文件。

如果仍然遇到问题，请联系我们的技术支持团队。tech@daiyl.com

安装NVIDIA驱动和CUDA：AI大模型软件实现GPU加速（2025最新版） ​

下载链接 ​

NVIDIA GPU 驱动 最新版 ​

CUDA 工具包 ​

CUDA最新版： ​

旧版本： ​

版本查看命令： ​

背景知识 ​

各芯片厂家的工具介绍 ​

加速推理原理 ​

检查NVIDIA独立显卡信息 ​

下载和安装驱动 ​

检查显卡对CUDA支持的版本 ​

下载安装CUDA ​