Short Text Note by melvincarvalho

2024-12-03 15:25:19

Tencent Hunyuan Large - 389B (Total) X 52B (Active) - beats Llama 3.1 405B, Mistral 8x22B, DeepSeek V2!

Multilingual, 128K context, Utilizes GQA + CLA for KV Cache compression + Higher throughput

Released Pre-train, Instruct & FP8 checkpoints on the Hugging Face Hub!

Author Public Key

npub1melv683fw6n2mvhl5h6dhqd8mqfv3wmxnz4qph83ua4dk4006ezsrt5c24

Show more details

melvincarvalho on Nostr: Tencent Hunyuan Large - 389B (Total) X 52B (Active) - beats Llama 3.1 405B, Mistral ...