Token é o pedaço em que o modelo de linguagem divide o texto para processar. Pode ser uma palavra inteira, parte de uma palavra ou um sinal. O modelo não lê letras nem frases como a gente: ele lê sequências de tokens e prevê o próximo. Tudo que entra e sai vira token nos bastidores.
Isso importa por dois motivos práticos: custo e limite. O preço de usar um modelo costuma ser contado por token, então texto mais longo custa mais. E a janela de contexto, o quanto o modelo aguarda de uma vez, também é medida em tokens. Saber disso ajuda a entender por que respostas longas saem mais caras e por que documentos grandes estouram o limite.
É um conceito mais técnico, e nem todo mundo de produto precisa dominar o detalhe. Mas entender que existe uma unidade de custo e de limite por trás de cada interação evita surpresas na conta e ajuda a desenhar features que não esbarram no teto sem aviso.