在当今高性能计算与人工智能基础设施迅猛发展的背景下,GPU编程领域迎来了一项具有里程碑意义的创新。2026年5月,英伟达(NVIDIA)实验室正式推出了一款备受期待的实验性开源项目——CUDA-Oxide 0.1。这个全新的Rust-to-CUDA编译器,使开发者能够直接用Rust语言编写NVIDIA GPU的CUDA内核,从而彻底改变了传统CUDA开发对C/C++的长期依赖,象征着Rust语言正式进入GPU核心编程的高级阶段。
长期以来,CUDA 生态几乎被 C/C++ 垄断。尽管 C++ 具有强大的性能,但其手动内存管理和复杂的并发控制机制,在 GPU 的单指令多线程(SIMT)架构下,容易导致内存泄漏、数据竞争等难以发现的底层错误。而 Rust 语言凭借其独特的所有权模型和严格的类型系统,天生具备极高的内存安全性。英伟达此次推出 CUDA-Oxide,看中的正是 Rust 在保障系统安全方面的巨大潜力,旨在从根本上解决 GPU 开发中常见的安全与稳定性问题。

CUDA-Oxide 0.1 的核心突破在于其“原生直出”的编译能力。它不再依赖传统的 FFI(外部函数接口)绑定或复杂的桥接层,而是作为一个实验性的
rustc 定制后端,能够将标准的 Rust 代码直接编译输出为 NVIDIA GPU 兼容的 PTX(并行线程执行)中间代码。这种“单源码编译”的设计理念,允许开发者在同一个 Rust 文件中同时编写 CPU 端的宿主逻辑和 GPU 端的内核代码,极大地降低了跨语言开发的上下文切换成本,构建起了更加原生、流畅的 Rust GPU 编译流程。在降低开发门槛的同时,CUDA-Oxide 并没有牺牲性能。它通过提供设备端抽象层,简化了内存分配、线程块调度等繁琐的底层细节,让开发者能更专注于算法逻辑本身。根据英伟达实验室的早期测试数据显示,CUDA-Oxide 生成的内核代码在矩阵乘法等典型高负载计算任务中,性能损耗控制在 5% 以内,几乎与原生 CUDA C++ 持平;而在内存错误率方面,却惊人地下降了 60% 以上,真正实现了在“safe-ish”(相对安全)的模式下榨取 GPU 的每一滴算力。
