Blog

Artigos sobre IA, LLMs, RAG e desenvolvimento de sistemas inteligentes em produção. Experiências reais e lições aprendidas.

Seis padrões de arquitetura que todo agente vertical deveria implementar

agentesarquiteturapadrões

Seis padrões de arquitetura que todo agente vertical deveria implementar

O Claude Design virou referência não pelo que ele produz, mas por como ele foi construído. Seis padrões arquiteturais que aparecem nesse sistema podem ser extraídos e aplicados em qualquer agente vertical: jurídico, comercial, de RH, de operações.

6 de maio de 20265 min de leitura

O gap entre ter dados e entender o que está nos dados

dadosferramentasinspeção

O gap entre ter dados e entender o que está nos dados

Antes de qualquer pipeline de AI processar dados, alguém precisa inspecioná-los. Excel quebra com volumes reais. Python resolve o volume mas exige código para cada pergunta. Existe uma camada de ferramentas que fica no meio e que faz essa inspeção ser prática.

1 de maio de 20264 min de leitura

Prompt não é instrução. Contexto é o recurso que o modelo usa para raciocinar

promptingcontextoLLMs

Prompt não é instrução. Contexto é o recurso que o modelo usa para raciocinar

A maioria das pessoas ainda trata prompt como uma instrução que você dá ao modelo. A mudança de perspectiva que importa é perceber que contexto é o recurso escasso, e o que você injeta nele determina o teto de qualidade do que sai.

28 de abril de 20264 min de leitura

Deixar o agente encontrar os parâmetros certos: o loop de auto-otimização

RAGauto-otimizaçãoexperimentos

Deixar o agente encontrar os parâmetros certos: o loop de auto-otimização

Um pipeline RAG tem pelo menos meia dúzia de parâmetros que afetam a qualidade: tipo de chunking, tamanho, overlap, top-k, modelo de embedding, estratégia de busca. A maioria dos times testa esses parâmetros manualmente. Existe uma alternativa.

23 de abril de 20264 min de leitura

O gargalo não é o modelo, é atenção humana gerenciando sessões

orquestraçãoagentestickets

O gargalo não é o modelo, é atenção humana gerenciando sessões

O teto de quanto você consegue extrair de agentes de código não é mais capacidade do modelo. É quanto contexto humano você consegue manter ativo ao mesmo tempo. A mudança de paradigma é de gerenciar sessões para gerenciar resultados.

16 de abril de 20264 min de leitura

O que é uma harness e por que a distinção com framework importa

harnessframeworkagentes

O que é uma harness e por que a distinção com framework importa

Harness e framework não são sinônimos. Um framework te dá peças para montar um agente. Uma harness já é o agente, e você fornece o objetivo. Entender essa distinção muda o que você escolhe construir e por quê.

10 de abril de 20265 min de leitura

Multi-tenancy em agentes: onde a separação de dados tem que ser feita

multi-tenancyLangGraphauth

Multi-tenancy em agentes: onde a separação de dados tem que ser feita

O default de qualquer deploy de agente é perigoso: qualquer usuário pode ver os dados de qualquer outro. Resolver isso exige uma decisão arquitetural sobre onde a separação de contexto é feita. Na borda, na aplicação, ou na camada de infraestrutura de agente.

7 de abril de 20264 min de leitura

Informação presa em áudio e vídeo: o próximo conjunto de dados que agentes vão precisar acessar

RAGmultimodaláudio

Informação presa em áudio e vídeo: o próximo conjunto de dados que agentes vão precisar acessar

A maioria dos sistemas RAG trabalha com documentos de texto. Mas nas organizações, uma parte significativa do conhecimento está em gravações de reuniões, apresentações em vídeo, e áudios de treinamento. RAG multimodal é o caminho para desbloquear esse contexto.

2 de abril de 20264 min de leitura

Modelo único para tudo ou pipeline de especialistas: o trade-off que ninguém resolve

multimodalNemotronlocal

Modelo único para tudo ou pipeline de especialistas: o trade-off que ninguém resolve

A Nvidia lançou o Nemotron 3 Nano Omni: um modelo que processa texto, imagem, vídeo e áudio ao mesmo tempo, com receitas de treinamento abertas e documentadas. Isso levanta uma decisão arquitetural real para quem constrói agentes multimodais.

27 de março de 20264 min de leitura

O problema de latência em voice AI e o que full-duplex muda

vozvoice AIlatência

O problema de latência em voice AI e o que full-duplex muda

Todo sistema de voz que você já usou tem o mesmo problema: três modelos em cadeia gerando três atrasos que se acumulam. O PersonaPlex resolveu isso com uma arquitetura diferente. Mas resolveu uma coisa e introduziu outra.

24 de março de 20264 min de leitura

Quando o seu agente usa outro agente para codar

Claude Codesubagentesorquestração

Quando o seu agente usa outro agente para codar

Claude Code pode ser invocado como subagente por um orquestrador maior. Isso muda o que é possível construir: em vez de um agente especializado que gera código, você tem um agente geral que delega tarefas de código para um subagente com capacidade de execução.

19 de março de 20264 min de leitura

A harness é o produto, não o modelo

harnessagenteswhatsapp

A harness é o produto, não o modelo

Chamar uma API de LLM não é construir um agente. A harness, o conjunto de responsabilidades ao redor do modelo, é o que transforma uma resposta em texto num sistema confiável. Entender isso muda o que você produz.

13 de março de 20265 min de leitura

Quando o modelo não degradou, mas o agente piorou

harnessestabilidadecontexto

Quando o modelo não degradou, mas o agente piorou

Existe uma categoria de reclamações sobre 'degradação de modelo' que, olhando com cuidado, não é degradação de modelo nenhuma. É degradação de harness. A diferença importa para quem está construindo sistemas que precisam ser estáveis.

10 de março de 20265 min de leitura

Guardrail não é uma camada única

guardrailssegurançaagentes

Guardrail não é uma camada única

O mercado trata guardrail como um único portão de segurança. Na prática, sistemas reais precisam de múltiplas camadas com responsabilidades distintas, e saber onde colocar cada uma faz a diferença entre um sistema resiliente e um demo bonito.

5 de março de 20265 min de leitura

GraphRAG: quando RAG vetorial começa a falhar

RAGGraphRAGgrafos

GraphRAG: quando RAG vetorial começa a falhar

RAG vetorial funciona bem para buscas diretas em documentos isolados. Mas quando a resposta exige conectar informação espalhada por centenas de fontes, a abordagem tradicional falha de forma silenciosa. GraphRAG existe para resolver esse problema específico.

27 de fevereiro de 20264 min de leitura

O problema que o DeepSeek Vision resolve que ninguém estava falando

DeepSeekmultimodalvisão

O problema que o DeepSeek Vision resolve que ninguém estava falando

Modelos multimodais evoluíram muito em resolução e detalhamento. Mas havia um gap diferente e mais fundamental: a linguagem é imprecisa para apontar objetos num raciocínio visual longo. O DeepSeek Vision resolveu isso de uma forma inesperadamente elegante.

24 de fevereiro de 20264 min de leitura

Como você gasta a janela de contexto determina o que o modelo consegue fazer

LLMscontextojanela de contexto

Como você gasta a janela de contexto determina o que o modelo consegue fazer

A janela de contexto não é um espaço de armazenamento. É a memória de trabalho do modelo. O que você coloca ali, em que formato, em que ordem, determina a qualidade do raciocínio que sai. Saber gerir esse recurso é a habilidade mais subestimada em quem trabalha com LLMs.

20 de fevereiro de 20264 min de leitura

O que entender sobre como LLMs funcionam muda na hora de construir com eles

LLMsfundamentostreinamento

O que entender sobre como LLMs funcionam muda na hora de construir com eles

Você não precisa entender álgebra linear para construir com LLMs. Mas entender como esses modelos são treinados muda o que você espera deles, por que eles falham onde falham, e o que vale otimizar no seu sistema.

17 de fevereiro de 20265 min de leitura

O ponto de entrada define se o sistema vai ser usado

automaçãocapturaN8N

O ponto de entrada define se o sistema vai ser usado

A maioria dos sistemas de captura morre no ponto de entrada, não no processamento. A diferença entre um alarme de incêndio e um fichário é o que separa uma automação que funciona de uma que você abandona na primeira semana.

13 de fevereiro de 20264 min de leitura

O ratchet loop: quando o agente faz a pesquisa e você define o que é bom

auto-researchloop autônomomelhoria contínua

O ratchet loop: quando o agente faz a pesquisa e você define o que é bom

O Auto-Research do Karpathy não é sobre treinar modelos. É sobre um padrão: qualquer sistema com parâmetros ajustáveis e uma métrica mensurável pode ser melhorado autonomamente por um loop que só avança quando há progresso verificado.

10 de fevereiro de 20264 min de leitura

Os três pilares para um agente que melhora com o uso

agentesmemóriaskills

Os três pilares para um agente que melhora com o uso

A maioria dos agentes de IA sabe o que sabe no lançamento e permanece assim. Construir um agente que realmente melhora com o uso exige três camadas distintas: memória de fatos, skills de domínio, e histórico consultável. Cada uma tem uma função diferente e não é substituível pelas outras.

6 de fevereiro de 20265 min de leitura

Como estruturar o output de agentes quando você processa centenas de entradas ao mesmo tempo

agentesescalaevals

Como estruturar o output de agentes quando você processa centenas de entradas ao mesmo tempo

Analisar centenas de entrevistas ou respostas de usuários com agentes exige uma estrutura de dados diferente do chat. A metáfora de tabela, onde cada resposta é uma linha e cada feature extraída é uma coluna, muda como você projeta o pipeline e como verifica qualidade.

3 de fevereiro de 20264 min de leitura

Construindo um RAG Customizado com LangChain e Pinecone

RAGLangChainPinecone

Construindo um RAG Customizado com LangChain e Pinecone

Aprenda a construir um sistema RAG customizado usando LangChain e Pinecone para consulta inteligente de documentos corporativos.

28 de abril de 20258 min de leitura

Agentes Autônomos com LangGraph: Um Guia Prático

LangGraphAgentesPython

Agentes Autônomos com LangGraph: Um Guia Prático

Domine a criação de agentes autônomos usando LangGraph para workflows complexos e multi-step com controle total do fluxo.

21 de abril de 202510 min de leitura

Deploy de LLMs em Produção: Lições Aprendidas

LLMsProduçãoDevOps

Deploy de LLMs em Produção: Lições Aprendidas

Lições práticas sobre como colocar sistemas baseados em LLMs em produção, incluindo latência, custos e reliability.

14 de abril de 202512 min de leitura

Fine-tuning vs RAG: Quando Usar Cada Abordagem

Fine-tuningRAGLLMs

Fine-tuning vs RAG: Quando Usar Cada Abordagem

Guia definitivo para escolher entre Fine-tuning e RAG nos seus projetos de IA, com critérios práticos e exemplos.

7 de abril de 20257 min de leitura