2026 → EM DEV macOS · Local AI · Gratuito

Rubio - Local AI Server

Gerenciamento unificado de modelos de IA local. Download, organização e inferência com Ollama, llama.cpp e MLX — tudo num único app, sem memorizar flags ou portas.

O problema

Rodar IA local é importante para mim. Investi num MacBook Pro de 128 GB de RAM especificamente para poder usar modelos de qualidade em qualquer lugar — em voos, cafés sem Wi-Fi, viagens onde conexão não existe. Nunca ser restrito da liberdade criativa e de explorar ideias, brainstorm, validação técnica. A máquina existe para isso.

Mas gerenciar múltiplos modelos em múltiplas engines é caótico. Preciso rodar modelos via Ollama, llama.cpp e MLX — cada um com suas flags, portas, formatos e limitações. Qual porta está rodando o quê? Qual tag esse modelo precisa? Onde salvei aquele GGUF de 40 GB? O tempo gasto lembrando e configurando é tempo que deveria estar sendo usado para criar.

Download é outra dor. No Hugging Face, modelos grandes vêm em múltiplas partes. Fazer download manual de cada split, monitorar progresso, lidar com modelos gated que precisam de token — não existe fluxo padronizado. E se você automatiza com um script, na próxima vez que precisa, não lembra onde está. Fluxos padronizados salvam tempo — e tempo é resultado.

O que resolve

Um hub centralizado para absolutamente tudo que envolve IA local. Download, organização, configuração e inferência — independente de qual engine roda o modelo. Um clique para iniciar, sem memorizar portas ou flags.

Multi-engine

Ollama, llama.cpp e MLX — num único painel

Rode múltiplos modelos ao mesmo tempo com engines diferentes, sem abrir múltiplas janelas de terminal. Selecione o modelo, escolha a engine, defina a porta e clique em iniciar. O app gerencia tudo — qual modelo está rodando, em qual porta, com quais parâmetros.

3 engines suportadas: Ollama, llama.cpp (llama-server), MLX
Múltiplos modelos simultâneos com engines diferentes
Um clique para iniciar — sem flags, sem terminal
Controle visual de qual modelo está em qual porta
Templates de parâmetros por modelo (temperatura, context, etc.)
Detecção automática de modelos compatíveis por engine

Download hub

Busca, download e organização de modelos

Busca direto no Hugging Face por modelos MLX, GGUF ou Tensor. Download automático de múltiplas partes com progresso visual, suporte a modelos gated com token de API, e detecção de espaço em disco antes de iniciar. Um fluxo padronizado que não se perde.

Busca integrada no Hugging Face por formato (MLX, GGUF, Tensor)
Download automático de modelos multi-part com progresso
Suporte a modelos gated (token de API do Hugging Face)
Detecção de disco insuficiente antes de iniciar
Organização por diretórios — aponte pastas e o app encontra tudo
Reconhecimento automático de formato e engine compatível

Modelos impossíveis

Rode modelos que teoricamente não cabem na memória

Modelos frontier open source como Qwen 3.5 397B, GLM 5.1, DeepSeek V3, Kimi K2.6 — teoricamente impossíveis de rodar num MacBook, mesmo com 128 GB. A solução: streaming direto do SSD via kernels especializados que carregam experts sob demanda, deixando o sistema operacional gerenciar a memória.

Inspirado pelo projeto flash-moe (originalmente apenas para Qwen 3.5 397B), portei a técnica para outros modelos frontier: GLM 5.1 MLX 2.7, DeepSeek 4, Kimi K2.6 — ampliando o que é possível rodar localmente.

SSD streaming — não depende de RAM suficiente para o modelo inteiro
Kernels MoE especializados que carregam experts sob demanda
Portabilidade para múltiplos modelos frontier (não apenas Qwen)
Roda mesmo que seja lento — essencial para voos e offline
Expõe em servidor local para uso em qualquer aplicação

Organização zero-esforço

Aponte diretórios — o app encontra tudo

Adicione pastas de modelos e o app reconhece automaticamente cada um, identifica o formato (GGUF, MLX, Tensor, Ollama), lista tudo junto independente de onde roda, e mostra qual engine é compatível. Sem reorganizar arquivos manualmente, sem perder modelos em pastas esquecidas.

Aponte uma ou várias pastas — reconhecimento automático
Identifica formato e sugere engines compatíveis
Drag and drop de modelos (salva apenas o path)
Visualização unificada independente da engine
Controle de portas — sabe exatamente o que roda onde
100% gratuito para macOS

Desafios e decisões

O desafio principal é abstrair a complexidade de 3 engines completamente diferentes (Ollama, llama.cpp, MLX) numa interface unificada. Cada uma tem seu próprio formato de modelo, flags de inicialização, API de inferência e limitações. A solução foi criar uma camada de adaptação por engine que normaliza tudo — o usuário vê modelos, não engines.

A portabilidade de modelos MoE frontier para SSD streaming foi a parte mais arriscada. O projeto original (flash-moe) resolvia apenas um modelo específico. Extrair pesos, reorganizar experts e adaptar o kernel para outros modelos (GLM 5.1, DeepSeek, Kimi K2.6) exigiu entender a arquitetura interna de cada um — não existe documentação para isso.

O download unificado precisou resolver um problema que parece simples mas não é: modelos no Hugging Face podem ter dezenas de splits, formatos diferentes no mesmo repositório, e modelos gated que precisam de aprovação prévia. O app detecta tudo isso antes de iniciar e guia o usuário — em vez de falhar silenciosamente no meio do download.