Rubio - Local AI Server
Gerenciamento unificado de modelos de IA local. Download, organização e inferência com Ollama, llama.cpp e MLX — tudo num único app, sem memorizar flags ou portas.
O problema
Rodar IA local é importante para mim. Investi num MacBook Pro de 128 GB de RAM especificamente para poder usar modelos de qualidade em qualquer lugar — em voos, cafés sem Wi-Fi, viagens onde conexão não existe. Nunca ser restrito da liberdade criativa e de explorar ideias, brainstorm, validação técnica. A máquina existe para isso.
Mas gerenciar múltiplos modelos em múltiplas engines é caótico. Preciso rodar modelos via Ollama, llama.cpp e MLX — cada um com suas flags, portas, formatos e limitações. Qual porta está rodando o quê? Qual tag esse modelo precisa? Onde salvei aquele GGUF de 40 GB? O tempo gasto lembrando e configurando é tempo que deveria estar sendo usado para criar.
Download é outra dor. No Hugging Face, modelos grandes vêm em múltiplas partes. Fazer download manual de cada split, monitorar progresso, lidar com modelos gated que precisam de token — não existe fluxo padronizado. E se você automatiza com um script, na próxima vez que precisa, não lembra onde está. Fluxos padronizados salvam tempo — e tempo é resultado.
O que resolve
Um hub centralizado para absolutamente tudo que envolve IA local. Download, organização, configuração e inferência — independente de qual engine roda o modelo. Um clique para iniciar, sem memorizar portas ou flags.
Ollama, llama.cpp e MLX — num único painel
Rode múltiplos modelos ao mesmo tempo com engines diferentes, sem abrir múltiplas janelas de terminal. Selecione o modelo, escolha a engine, defina a porta e clique em iniciar. O app gerencia tudo — qual modelo está rodando, em qual porta, com quais parâmetros.
- 3 engines suportadas: Ollama, llama.cpp (llama-server), MLX
- Múltiplos modelos simultâneos com engines diferentes
- Um clique para iniciar — sem flags, sem terminal
- Controle visual de qual modelo está em qual porta
- Templates de parâmetros por modelo (temperatura, context, etc.)
- Detecção automática de modelos compatíveis por engine
Busca, download e organização de modelos
Busca direto no Hugging Face por modelos MLX, GGUF ou Tensor. Download automático de múltiplas partes com progresso visual, suporte a modelos gated com token de API, e detecção de espaço em disco antes de iniciar. Um fluxo padronizado que não se perde.
- Busca integrada no Hugging Face por formato (MLX, GGUF, Tensor)
- Download automático de modelos multi-part com progresso
- Suporte a modelos gated (token de API do Hugging Face)
- Detecção de disco insuficiente antes de iniciar
- Organização por diretórios — aponte pastas e o app encontra tudo
- Reconhecimento automático de formato e engine compatível
Rode modelos que teoricamente não cabem na memória
Modelos frontier open source como Qwen 3.5 397B, GLM 5.1, DeepSeek V3, Kimi K2.6 — teoricamente impossíveis de rodar num MacBook, mesmo com 128 GB. A solução: streaming direto do SSD via kernels especializados que carregam experts sob demanda, deixando o sistema operacional gerenciar a memória.
Inspirado pelo projeto flash-moe (originalmente apenas para Qwen 3.5 397B), portei a técnica para outros modelos frontier: GLM 5.1 MLX 2.7, DeepSeek 4, Kimi K2.6 — ampliando o que é possível rodar localmente.
- SSD streaming — não depende de RAM suficiente para o modelo inteiro
- Kernels MoE especializados que carregam experts sob demanda
- Portabilidade para múltiplos modelos frontier (não apenas Qwen)
- Roda mesmo que seja lento — essencial para voos e offline
- Expõe em servidor local para uso em qualquer aplicação
Aponte diretórios — o app encontra tudo
Adicione pastas de modelos e o app reconhece automaticamente cada um, identifica o formato (GGUF, MLX, Tensor, Ollama), lista tudo junto independente de onde roda, e mostra qual engine é compatível. Sem reorganizar arquivos manualmente, sem perder modelos em pastas esquecidas.
- Aponte uma ou várias pastas — reconhecimento automático
- Identifica formato e sugere engines compatíveis
- Drag and drop de modelos (salva apenas o path)
- Visualização unificada independente da engine
- Controle de portas — sabe exatamente o que roda onde
- 100% gratuito para macOS
Desafios e decisões
O desafio principal é abstrair a complexidade de 3 engines completamente diferentes (Ollama, llama.cpp, MLX) numa interface unificada. Cada uma tem seu próprio formato de modelo, flags de inicialização, API de inferência e limitações. A solução foi criar uma camada de adaptação por engine que normaliza tudo — o usuário vê modelos, não engines.
A portabilidade de modelos MoE frontier para SSD streaming foi a parte mais arriscada. O projeto original (flash-moe) resolvia apenas um modelo específico. Extrair pesos, reorganizar experts e adaptar o kernel para outros modelos (GLM 5.1, DeepSeek, Kimi K2.6) exigiu entender a arquitetura interna de cada um — não existe documentação para isso.
O download unificado precisou resolver um problema que parece simples mas não é: modelos no Hugging Face podem ter dezenas de splits, formatos diferentes no mesmo repositório, e modelos gated que precisam de aprovação prévia. O app detecta tudo isso antes de iniciar e guia o usuário — em vez de falhar silenciosamente no meio do download.