Avaliação de IA é como você mede a qualidade do que um sistema de IA produz, de forma sistemática e repetível. Em vez de olhar uma resposta e achar que ficou boa, você monta um conjunto de casos, define critérios de acerto e roda isso toda vez que muda algo, para saber se melhorou ou piorou.
Isso virou pauta de quem leva IA a produção, porque IA não tem um resultado fixo: a mesma pergunta pode gerar respostas diferentes. Sem avaliação, você troca o modelo ou o prompt no escuro, sentindo que ficou melhor sem prova. Eval é o que transforma achismo em evidência.
Na prática, avaliar IA mistura medida automática com julgamento humano. Algumas coisas dá para checar por regra, outras precisam de uma pessoa lendo. Quem desenha produto de IA participa de definir o que conta como resposta boa, porque qualidade aqui é decisão de produto, não só métrica técnica.