微纳知否--NVIDIA招聘深度学习性能架构师-上海/北京

NVIDIA

领域:消费电子,智能硬件,汽车电子

规模:1000人以上

主页:http://www.nvidia.com

地址:上海市浦东新区矽岸国际-秋月路26号

查看来源网站

NVIDIA

NVIDIA招聘深度学习性能架构师-上海/北京

40万 - 80万 上海 | 3年以上 | 本科及以上 | 全职

职位福利:五险一金,年终奖金,成长空间大,技术领先

发布时间:2021-12-14 发布者：Tracy Wu 投递简历

描述：

我们的目标
推动算法、核心加速软件库及GPU体系结构协同优化，在高速发展及多变的深度学习算法与GPU硬件体系结构之间建立桥梁，并研发先进的软硬件协同的加速计算解决方案。
团队职责
NVIDIA中国计算架构团队历经CUDA并行编程模型从起步至今的所有阶段，参与了几乎所有的通用GPU计算架构的研发工作，包括：Fermi、Kepler、Maxwell、Pascal、Volta、Turing、Ampere，以及面向未来GPU架构。
团队从高性能计算，深度学习，自动驾驶等计算应用领域出发，跟踪学界、工业界最前沿算法，并掌握其发展方向；通过对前沿算法（比如：神经网络结构）的深入理解，分析并提出芯片架构的需求：指令集、编程模型、计算能力、访存带宽、片上存储、片上网络及网络互联等。
团队同时承担基于架构优化的软件栈的开发及产品化工作：自底层加速核心算子开发及优化；TensorRT、cuDNN等核心加速库；直到上层训练框架，编译优化；混合精度、稀疏矩阵训练及量化方法开发。
基于硬件架构开发软件、算法实现，通过算法、软件开发实践反馈并推动硬件架构提升，形成闭环，最终实现软硬件协同优化，达到极致计算加速的目标：
•            建立下一代芯片性能模型, 搭建芯片性能分析平台，调研下一代芯片新特性；
•            研发及设计新的加速指令，开发原型代码，并通过迭代优化下一代芯片架构；
•            跟踪下一代芯片新特性在应用中的落地实现（编程模型、软件栈等）；
•            开发集成最终软件产品库 - TesorRT， cuDNN；
•            优化训练框架（MLPerf 各项优化）；
•            开发混合精度、稀疏矩阵及量化方法；
其他成果包括：若干GTC talks、学术论文、专利，公司内部技术大会报告
职位介绍：
主要方向
•            通用Accelerator芯片架构
•            基于架构的算子开发、优化、编译等
•            Tensor RT
职位要求
•            计算机体系结构（通用Accelerator芯片架构方向）
•            熟练掌握C/C++编程（算子开发、Tensor RT方向）
•            （加分项）掌握CUDA编程及性能优化
工作地点: 上海、北京、新竹

浏览量：194