Janela de contexto é o tamanho máximo de informação que um modelo de linguagem consegue ter em mente ao mesmo tempo, contado em tokens. Tudo que entra na conversa, o que você pediu, o que ele já respondeu, os documentos que você colou, ocupa essa janela. Quando estoura, o começo escapa.
Isso é um limite operacional que molda o que dá para construir. Uma janela pequena obriga a resumir, cortar ou recuperar trechos sob demanda, como no RAG. Uma janela grande permite jogar muito material de uma vez, mas custa mais caro e nem sempre o modelo presta atenção igual em tudo que está lá dentro.
Para quem faz produto, entender a janela de contexto evita promessas que o sistema não cumpre. Aquela feature que deveria ler o documento inteiro pode estar, na verdade, vendo só um pedaço. Saber o limite explica comportamentos estranhos e orienta o desenho da solução.