...

MLA是一种计算技巧。计算自注意力机制的时候，其中有一步是自己和自己的转置相乘，句子的长度，每个词汇的embedding维度都特别很大。比如序列长度1024个token，K和Q维度都是512。这个计算量是 1024*1024*512 = 536870912次乘法（加法计算量低忽略不计）；如果采用低秩链接压缩技术。把一个大矩阵变成了个小矩阵的乘积来计算。比如K变成K1*K2。K1的维度是1024*50；K2 的维度是50*512。之前K*Q的计算量就变成了K1*（K2*Q），此处要用一下结合律。则需要50*512*1024+1024*50*1024 = 78643200次乘法。节约了85%的乘法计算量。

当然一个大矩阵拆乘2个矩阵相乘，也有成本，总体上肯定是有正收益的，这帮年薪都200多万的大牛，肯定比我算得精准。。

全网也只有我这么算给大家看了吧 [泪]

f6XF on Nostr: ...