Inferences

candle // MacOS/Windows/WSL2 // 27GB // 7.71 tokens/sec
llamafile // MacOS/Windows // 28GB (no gc) // 34.68 tokens/sec
WasmEdge // MacOS/Windows/WSL2
TabbyML // MacOS/Windows/WSL2
llama.cpp // MacOS/Windows // 13GB // 34.01 tokens/sec
ollama // MacOS/Windows/WSL2