Avaliação de IA

O processo de medir, com método, se a saída de um sistema de IA está boa o bastante para ir e continuar em produção.

Hard

O que é

Avaliação de IA é como você mede a qualidade do que um sistema de IA produz, de forma sistemática e repetível. Em vez de olhar uma resposta e achar que ficou boa, você monta um conjunto de casos, define critérios de acerto e roda isso toda vez que muda algo, para saber se melhorou ou piorou.

Isso virou pauta de quem leva IA a produção, porque IA não tem um resultado fixo: a mesma pergunta pode gerar respostas diferentes. Sem avaliação, você troca o modelo ou o prompt no escuro, sentindo que ficou melhor sem prova. Eval é o que transforma achismo em evidência.

Na prática, avaliar IA mistura medida automática com julgamento humano. Algumas coisas dá para checar por regra, outras precisam de uma pessoa lendo. Quem desenha produto de IA participa de definir o que conta como resposta boa, porque qualidade aqui é decisão de produto, não só métrica técnica.

Em uma frase

Antes de subir o modelo novo, deixa eu rodar os evals para ver se não piorou nada.

A pergunta que ele responde

Como sei, com prova, se a minha feature de IA está boa o suficiente?

Quando usar

Sempre que for mudar modelo, prompt ou arquitetura de uma feature de IA e precisar saber se melhorou.

Como não usar

Confiar na impressão de que ficou melhor olhando duas respostas. Sem conjunto de casos e critério, é só sensação.

Na prática

Antes de trocar o modelo do assistente, o time roda os mesmos cinquenta casos no modelo novo e compara os acertos com o atual.

Não confunda com

Avaliação de IA não é o mesmo que teste A/B: o eval mede a qualidade da saída do modelo contra critérios, o teste A/B compara o comportamento de duas versões com usuários reais.

Em inglês

Eval / AI Evaluation

Pronúncia

í-vâl

Também chamado de

eval, evals, avaliação de modelo, teste de IA

Origem

n/a

Fonte

Saiba mais

Anthropic, documentação sobre avaliação de modelos e construção de evals