What is Nostr?
f6XF
npub19ym…djan
2025-02-26 11:57:30
in reply to nevent1q…cfgc

f6XF on Nostr: ...

Ds最近开的这几个仓库(DeepEP,DeepGEMM,FlashMLA),工程师抓紧研究了下,感觉还是利好Nvidia。专门为hopper架构优化了MLA 然后写了基于NCCL专家并行的通信库 还提供了更好的FP8专门的优化核函数来优化GEMM,一起用上来能快不少,这些东西才是之前外面的人都没法获得如此廉价的API价格的核心原因,要实现他们论文提到的那几个核心技术——MLA和EP。看来Ds也是完全导向英X达在做优化,留给AMD的时间不多了。。

这个MLA我下一条微博说。
Author Public Key
npub19ymyv276scfw9y83wgclmh9f5evtgungpjmxrdfhkyfp6keadqasy8djan