What is Nostr?
f6XF
npub19ym…djan
2025-02-26 11:57:57
in reply to nevent1q…cfgc

f6XF on Nostr: ...

MLA是一种计算技巧。计算自注意力机制的时候,其中有一步是自己和自己的转置相乘,句子的长度,每个词汇的embedding维度都特别很大。比如序列长度1024个token,K和Q维度都是512。这个计算量是 1024*1024*512 = 536870912次乘法(加法计算量低忽略不计);如果采用低秩链接压缩技术。把一个大矩阵变成了个小矩阵的乘积来计算。比如K变成K1*K2。K1的维度是1024*50;K2 的维度是50*512。之前K*Q的计算量就变成了K1*(K2*Q),此处要用一下结合律。则需要50*512*1024+1024*50*1024 = 78643200次乘法。节约了85%的乘法计算量。

当然一个大矩阵拆乘2个矩阵相乘,也有成本,总体上肯定是有正收益的,这帮年薪都200多万的大牛,肯定比我算得精准。。

全网也只有我这么算给大家看了吧 [泪]
Author Public Key
npub19ymyv276scfw9y83wgclmh9f5evtgungpjmxrdfhkyfp6keadqasy8djan