What Is Ollama

By Arch Brooks on April 17, 2026 in Programming

Ollama is a tool that lets you run large language models (LLMs) locally on your machine instead of calling cloud APIs.

Privacy → everything stays local
No API costs
Fast iteration for dev work
Works well for:
- code generation
- chatbots
- local automation
- embedding + RAG systems

# install (Arch example via AUR)
yay -S ollama

# start service
ollama serve

# run a model
ollama run llama3

ollama pull deepseek-coder
ollama run deepseek-coder

curl http://localhost:11434/api/generate -d '{
"model": "llama3",
"prompt": "Explain Mark 9:36-37"
}'

Common ones:

Runs smaller/open models, not things like GPT-5
Quality depends on:
- your hardware (RAM/VRAM)
- model size (7B, 13B, 70B, etc.)

Ollama = local AI engine
Think:

“Docker for LLMs running on my machine”

Back to Blog ← Back

BCS Blog