ゆうひまわり on Nostr: ...
そういうことですか、メインメモリにオフロードすれば、その速度で動きます、普通はVRAM内であればcudaやvulkenのllama.cppで30~40tokens/sで動きます
thinkingがあると、流石に3tokens/sは厳しいので...
Published at
2025-01-25 11:05:22Event JSON
{
"id": "cec6372f132747d86037a3d9cfedfb9ad70ab6230778f6affe958d8e8bdcb227",
"pubkey": "269e6f57aa9a200c814e6b98721819dde038ca60c0390b87b658d300ab6d0d04",
"created_at": 1737803122,
"kind": 1,
"tags": [
[
"e",
"a87f703c84f2929bfdb71cd161b2419b6ff246410d3420cdcd704914bde12b8d",
"",
"root"
],
[
"p",
"8571a2e767982f06c7afba80667147ae90d3163e7d7bf2a8eb6a412163c114e9"
]
],
"content": "そういうことですか、メインメモリにオフロードすれば、その速度で動きます、普通はVRAM内であればcudaやvulkenのllama.cppで30~40tokens/sで動きます\nthinkingがあると、流石に3tokens/sは厳しいので...",
"sig": "40cb9423a1f0de02d93eae1f871fa82eda5a82e155183c218b32c28ff0e81c96fe77b116e07a7c5e513c267531cacce6ad41bfd382829e644559eca51c4b013a"
}