...

2025-01-25 11:05:22

そういうことですか、メインメモリにオフロードすれば、その速度で動きます、普通はVRAM内であればcudaやvulkenのllama.cppで30～40tokens/sで動きます
thinkingがあると、流石に3tokens/sは厳しいので...

Author Public Key

npub1y60x74a2ngsqeq2wdwv8yxqemhsr3jnqcqushpaktrfsp2mdp5zqe9cll0

Show more details

ゆうひまわり on Nostr: ...