f6XF on Nostr: ...
Ds最近开的这几个仓库(DeepEP,DeepGEMM,FlashMLA),工程师抓紧研究了下,感觉还是利好Nvidia。专门为hopper架构优化了MLA 然后写了基于NCCL专家并行的通信库 还提供了更好的FP8专门的优化核函数来优化GEMM,一起用上来能快不少,这些东西才是之前外面的人都没法获得如此廉价的API价格的核心原因,要实现他们论文提到的那几个核心技术——MLA和EP。看来Ds也是完全导向英X达在做优化,留给AMD的时间不多了。。
这个MLA我下一条微博说。
Published at
2025-02-26 11:57:30Event JSON
{
"id": "ab98ba84f38c35ebd8db94d7612c421fcb9d625ed6af493b465bf0327c374055",
"pubkey": "2936462bda8612e290f17231fddca9a658b472680cb661b537b1121d5b3d683b",
"created_at": 1740571050,
"kind": 1,
"tags": [
[
"e",
"9ca31705212eb454d564fc8b5e7c4b383cf61cd70beab5ae771c32a8c81c1a8f",
"",
"root"
],
[
"p",
"2936462bda8612e290f17231fddca9a658b472680cb661b537b1121d5b3d683b"
],
[
"r",
"wss://140.f7z.io/"
],
[
"r",
"wss://bevo.nostr1.com/"
]
],
"content": "Ds最近开的这几个仓库(DeepEP,DeepGEMM,FlashMLA),工程师抓紧研究了下,感觉还是利好Nvidia。专门为hopper架构优化了MLA 然后写了基于NCCL专家并行的通信库 还提供了更好的FP8专门的优化核函数来优化GEMM,一起用上来能快不少,这些东西才是之前外面的人都没法获得如此廉价的API价格的核心原因,要实现他们论文提到的那几个核心技术——MLA和EP。看来Ds也是完全导向英X达在做优化,留给AMD的时间不多了。。\n\n这个MLA我下一条微博说。",
"sig": "d464c9358316c6b32b059eba686160e897988d7aad919086c0be1449ed661ee85d56b027fdd0639d0bf9cb2b408fec76d44038107e8a70ab8f6974f8b81cdff9"
}