Multimodal descreve uma IA que lida com vários tipos de informação ao mesmo tempo: além de texto, ela pode ver imagem, ouvir voz, interpretar áudio e responder por mais de um canal. A interação deixa de ser só digitar e ler e passa a misturar os sentidos.
Isso abre espaço para experiências que se aproximam de como a pessoa age no mundo. Apontar a câmera para um produto e perguntar sobre ele, falar com o assistente enquanto mostra uma foto, receber resposta em fala e imagem. Para quem desenha produto, é uma palheta de entrada e saída muito maior do que a do texto puro.
O desafio é que combinar canais aumenta a complexidade da experiência. Quando usar voz, quando usar tela, como lidar com ambiguidade entre o que a pessoa falou e o que mostrou. Multimodal não é só somar capacidades: é decidir, em cada momento, qual canal serve melhor a intenção da pessoa.