f6XF on Nostr: ...
MLA是一种计算技巧。计算自注意力机制的时候,其中有一步是自己和自己的转置相乘,句子的长度,每个词汇的embedding维度都特别很大。比如序列长度1024个token,K和Q维度都是512。这个计算量是 1024*1024*512 = 536870912次乘法(加法计算量低忽略不计);如果采用低秩链接压缩技术。把一个大矩阵变成了个小矩阵的乘积来计算。比如K变成K1*K2。K1的维度是1024*50;K2 的维度是50*512。之前K*Q的计算量就变成了K1*(K2*Q),此处要用一下结合律。则需要50*512*1024+1024*50*1024 = 78643200次乘法。节约了85%的乘法计算量。
当然一个大矩阵拆乘2个矩阵相乘,也有成本,总体上肯定是有正收益的,这帮年薪都200多万的大牛,肯定比我算得精准。。
全网也只有我这么算给大家看了吧 [泪]
Published at
2025-02-26 13:18:17Event JSON
{
"id": "1ead5a76d0271875243fa2acf14c4c2dd43cf063691bd2405f6015d07381df35",
"pubkey": "2936462bda8612e290f17231fddca9a658b472680cb661b537b1121d5b3d683b",
"created_at": 1740575897,
"kind": 1,
"tags": [
[
"e",
"9ca31705212eb454d564fc8b5e7c4b383cf61cd70beab5ae771c32a8c81c1a8f",
"",
"root"
],
[
"p",
"2936462bda8612e290f17231fddca9a658b472680cb661b537b1121d5b3d683b"
],
[
"r",
"wss://140.f7z.io/"
],
[
"r",
"wss://bevo.nostr1.com/"
],
[
"r",
"wss://adre.su/"
],
[
"r",
"wss://at.nostrworks.com/"
],
[
"r",
"wss://bitcoiner.social/"
],
[
"r",
"wss://bitcoinmaximalists.online/"
],
[
"r",
"wss://bitstack.app/"
]
],
"content": "MLA是一种计算技巧。计算自注意力机制的时候,其中有一步是自己和自己的转置相乘,句子的长度,每个词汇的embedding维度都特别很大。比如序列长度1024个token,K和Q维度都是512。这个计算量是 1024*1024*512 = 536870912次乘法(加法计算量低忽略不计);如果采用低秩链接压缩技术。把一个大矩阵变成了个小矩阵的乘积来计算。比如K变成K1*K2。K1的维度是1024*50;K2 的维度是50*512。之前K*Q的计算量就变成了K1*(K2*Q),此处要用一下结合律。则需要50*512*1024+1024*50*1024 = 78643200次乘法。节约了85%的乘法计算量。\n\n当然一个大矩阵拆乘2个矩阵相乘,也有成本,总体上肯定是有正收益的,这帮年薪都200多万的大牛,肯定比我算得精准。。\n\n全网也只有我这么算给大家看了吧 [泪]",
"sig": "af8803ba96b3a5e590f6cabc1353f05e7ea5be58b59f366b1103bfd61676bfd6d88a460122ce700943651decc943347ddb77698f102b1958b4dc434cf15901fd"
}