Inferences

  • candle // MacOS/Windows/WSL2 // 27GB // 7.71 tokens/sec
  • llamafile // MacOS/Windows // 28GB (no gc) // 34.68 tokens/sec
  • WasmEdge // MacOS/Windows/WSL2
  • TabbyML // MacOS/Windows/WSL2
  • llama.cpp // MacOS/Windows // 13GB // 34.01 tokens/sec
  • ollama // MacOS