Multimodal

Sistema de IA que entende e combina mais de um tipo de entrada, como texto, imagem, voz e gesto, numa mesma interação.

Hard

O que é

Multimodal descreve uma IA que lida com vários tipos de informação ao mesmo tempo: além de texto, ela pode ver imagem, ouvir voz, interpretar áudio e responder por mais de um canal. A interação deixa de ser só digitar e ler e passa a misturar os sentidos.

Isso abre espaço para experiências que se aproximam de como a pessoa age no mundo. Apontar a câmera para um produto e perguntar sobre ele, falar com o assistente enquanto mostra uma foto, receber resposta em fala e imagem. Para quem desenha produto, é uma palheta de entrada e saída muito maior do que a do texto puro.

O desafio é que combinar canais aumenta a complexidade da experiência. Quando usar voz, quando usar tela, como lidar com ambiguidade entre o que a pessoa falou e o que mostrou. Multimodal não é só somar capacidades: é decidir, em cada momento, qual canal serve melhor a intenção da pessoa.

Em uma frase

Como a feature é multimodal, a pessoa pode mandar a foto e perguntar por voz ao mesmo tempo.

A pergunta que ele responde

Como faço a IA entender foto, voz e texto juntos, e não só o que a pessoa digita?

Quando usar

Quando a tarefa fica mais natural combinando canais, como visão mais voz, do que só por texto.

Como não usar

Adicionar voz ou imagem só porque a tecnologia permite. Cada canal precisa servir a intenção, não enfeitar.

Na prática

A pessoa tira foto da geladeira, pergunta por voz o que dá pra cozinhar e recebe uma receita em texto com imagem do prato.

Não confunda com

Multimodal não é o mesmo que multicanal: multimodal mistura tipos de entrada e saída numa só interação, multicanal é estar presente em vários pontos de contato separados.

Em inglês

Multimodal

Pronúncia

n/a

Também chamado de

multimodal, IA multimodal, multimodalidade

Origem

n/a

Fonte

Saiba mais

Nielsen Norman Group, artigos sobre interfaces multimodais e de voz