Guardrails (de IA)

As regras e limites que impedem o modelo de IA de fazer ou dizer algo inseguro, fora do escopo ou indevido.

Hard

O que é

Guardrails são as restrições que cercam o comportamento de um sistema de IA para mantê-lo dentro do que é seguro e aceitável. Podem barrar assuntos proibidos, impedir ações de risco, filtrar saída ofensiva ou garantir que o modelo só responda dentro do escopo do produto. São o trilho que mantém a IA no caminho.

Isso virou trabalho de design, porque guardrail não é só um filtro técnico nos bastidores. Como a IA recusa, o que ela diz quando não pode responder e como ela redireciona a pessoa é experiência. Uma recusa seca frustra. Uma recusa que explica e oferece alternativa mantém a confiança.

Desenhar guardrail é equilíbrio fino: apertado demais e a IA fica inútil, recusando coisas legítimas. Frouxo demais e ela faz besteira. O ponto certo depende do risco real de cada feature e se descobre testando com casos de borda, não no chute.

Em uma frase

Antes de lançar, precisa definir os guardrails: o que essa IA pode e o que ela nunca responde.

A pergunta que ele responde

Como impeço a IA de dizer ou fazer algo que vai me dar problema?

Quando usar

Em qualquer feature de IA que possa gerar saída de risco, sair do escopo ou executar ação sensível.

Como não usar

Apertar tanto que a IA recusa pedidos legítimos, ou afrouxar tanto que ela faz o que não devia. Os dois quebram a confiança.

Na prática

O assistente de banco é configurado para nunca dar conselho de investimento. Quando pedem isso, ele explica o limite e oferece falar com um especialista.

Não confunda com

Guardrails não é o mesmo que humano no circuito: o guardrail é uma regra automática que limita o sistema, o humano no circuito é uma pessoa que decide num ponto crítico.

Em inglês

Guardrails

Pronúncia

gárd-reiôs

Também chamado de

guard rails, limites de IA, trilhos de segurança

Origem

n/a

Fonte

Saiba mais

Anthropic, documentação sobre uso responsável e limites de modelos