sicutdeux@blog:~/links$cat ollama-on-nvidia-jetson.md
Corriendo Ollama en una Jetson Orin Nano de 8GB
---
source_url:
source_name:
Hacker News
published:
2026-05-17
tags:
[llm, self-hosted]
llm_model:
anthropic.claude-haiku-4-5
status:
approved · published
---
Got llama3.1:8b running at ~12 tokens/sec on a Jetson Orin Nano (8GB). Power draw stays under 18W. Compared to my Threadripper desktop (200W+), this thing is a power-efficiency monster for inference.
Tengo una Jetson Orin Nano sin uso desde que la compré para un proyecto de visión por computadora que abandonné. Este post me convenció de probarla con Ollama. 12 tokens/seg con un 8B no es competitivo con cloud (Bedrock me da 50+), pero el ratio tokens/watt es absurdo.
Para un blog que cura HN cada 6 horas, no necesito velocidad — necesito que sea barato y confiable. Voy a migrar el LLM curator a la Jetson local y dejar Bedrock solo como fallback. Si funciona, escribo el setup.