...

2025-02-26 11:57:30

Ds最近开的这几个仓库（DeepEP，DeepGEMM，FlashMLA），工程师抓紧研究了下，感觉还是利好Nvidia。专门为hopper架构优化了MLA 然后写了基于NCCL专家并行的通信库还提供了更好的FP8专门的优化核函数来优化GEMM，一起用上来能快不少，这些东西才是之前外面的人都没法获得如此廉价的API价格的核心原因，要实现他们论文提到的那几个核心技术——MLA和EP。看来Ds也是完全导向英X达在做优化，留给AMD的时间不多了。。

这个MLA我下一条微博说。

Author Public Key

npub19ymyv276scfw9y83wgclmh9f5evtgungpjmxrdfhkyfp6keadqasy8djan

Seen on

wss://relay.primal.net

Show more details

f6XF on Nostr: ...