职位描述
![](http://img.jrzp.com/jrzpfile/provincercw/images/fangxintou.png)
职位描述
为大规模分布式训练/推理、llm等多种重计算任务设计和实现分布式计算方案,并对各类任务进行定制化优化。具体工作包括且不限于:
1,搭建分布式高性能计算框架,研究和实验新的分布式计算技术,基于主流分布式框架进行研发和优化
2,分析和优化训练计算效率,通过gpu算子优化、异步并发、io优化等方式减少计算耗时
3,设计和优化网络架构,对各种任务partition和并行方式进行性能调优
4,领导和指导团队中的研究人员和工程师,共同解决大规模分布式计算中的挑战
职位要求
1,硕士及以上学历,计算机/软件工程等相关专业,3年以上工作经验(或相关专业博士);
2,对tensorflow/pytorch等主流框架的架构设计及优化技术有比较深入的理解,比如算子融合、量化、xla、计算图优化等
3,有丰富的c++开发经验或精通python,有很好的系统基础和扎实的编码功底,具有较强的工程实现能力
4,对计算机体系结构有较为深入的理解或丰富的经验,熟悉大规模并行计算/异构计算/高性能计算;
5,具备较强的沟通能力,团队驱动能力和独立工作能力,能带领和协调团队推动方案完成
工作地点
地址:杭州余杭区杭州文一西路969号
![](http://img.jrzp.com/jrzpfile/rcw/SearchJob/images/jg.png)
![](https://img.jrzp.com/images_server/comm/nan1921.png)
职位发布者
HR
阿里巴巴(中国)有限公司
![](http://img.jrzp.com/jrzpfile/provincercw/images/sfrz_yrz.png)
![](http://img.jrzp.com/jrzpfile/rcw/SearchJob/images/V.png)
-
IT服务·系统集成
-
1000人以上
-
中外合资(合资·合作)
-
杭州滨江区阿里巴巴滨江园区699