有人说,我做一款AI芯片,只要原生支持PyTorch就好了呀,用户直接用PyTorch跑模型,根本接触不到CUDA呀。
没错,一般的用户只要在PyTorch层面做应用,但是总是有新的模型架构出来,这些架构都需要做特定的性能优化才能在一个芯片上得到较高的性能,这时候就涉及到算子开发了。
比如说一开始LLM在GPU上的性能不好,后来社区针对Nvidia GPU做了flash attention等的优化才把LLM的性能提升到了比较可观的程度。
CUDA已经被各种开源AI框…。
不不不,把python去掉,只用rust。 组合个毛线啊,...
流传甚广的联合国宪章最薄我没看过,但今天看了一个联合国决议,...
哥们是做科研的,对开源的恐怖略知一二 我15年刚去单位,钻研...
流浪地球的细节,真实到了恐怖的程度!作为医生,对医院的细节比...
说明国产丰田不能买了,合资之前也就靠着质量部门拖着下限。 ...
根据目前抖音、b站、微信公众号等平台爆料内容,我们目前可以了...
在线客服 :
服务热线:
电子邮箱:
公司地址: