Portal IDEA

Introdução aos Modelos de Linguagem de Larga Escala (LLM)

INTRODUÇÃO AOS MODELOS DE LINGUAGEM DE LARGA ESCALA (LLM)

 

MÓDULO 1 — O que são LLMs e por que eles “parecem inteligentes” 

Aula 1 — LLM sem mistério: previsão de próxima palavra

  

Quando ouvimos “modelo de linguagem de larga escala (LLM)”, é comum imaginar um cérebro digital que entende o mundo como uma pessoa. Só que o ponto de partida é bem menos mágico — e, ao mesmo tempo, mais interessante: um LLM é, essencialmente, um sistema treinado para prever qual é o próximo pedaço de texto mais provável dado o que veio antes. Ele não “pensa” como um humano pensa; ele completa padrões com uma competência absurda, porque viu uma quantidade gigantesca de exemplos durante o treinamento.

Para deixar isso concreto: imagine que eu escreva “Hoje eu fui ao supermercado e comprei…”. Você, sem esforço, já prevê possibilidades como “pão”, “leite”, “frutas”. Um LLM faz algo parecido, só que com bilhões de exemplos na memória estatística. A diferença é que ele não prevê “palavras” exatamente como a gente imagina. Ele prevê tokens — pedaços de texto que podem ser palavras inteiras, partes de palavras, sinais de pontuação ou combinações frequentes de letras. Isso explica por que o modelo às vezes lida “estranho” com nomes incomuns, termos técnicos muito específicos ou idiomas misturados: ele está jogando com peças menores do que palavras e tentando encaixar a sequência mais provável.

Aqui vai um detalhe que muda sua forma de usar essas ferramentas para sempre: o LLM não foi treinado para “falar a verdade”. Ele foi treinado para produzir uma continuação plausível. Verdade e plausibilidade não são a mesma coisa. Se você pede “Explique tal assunto”, ele tende a montar uma resposta que parece correta porque o estilo, o encadeamento e a estrutura são semelhantes ao que ele viu em textos bons. Mas isso não garante que o conteúdo esteja certo. É por isso que, quando ele erra, ele erra com confiança — ele não está “mentindo” no sentido humano; ele só está completando texto de um jeito que soa convincente.

Então por que ele parece tão inteligente? Porque previsão de próximo token, em escala, gera comportamentos surpreendentes. Quando você treina um modelo enorme com muitos dados, ele começa a apresentar habilidades que não foram “programadas” diretamente: resumir, reescrever, explicar, traduzir, criar listas, comparar ideias. Em geral, isso acontece porque para prever texto bem em contextos variados, ele precisa capturar relações entre conceitos, estilos de escrita,

estruturas de argumento e até padrões de raciocínio presentes nos dados. Ele não “entende” como nós entendemos, mas pode simular muito bem o formato do entendimento — e isso já é suficiente para ser útil em várias tarefas do cotidiano.

Outro conceito importante é separar dois “tipos” de modelos que as pessoas misturam como se fossem a mesma coisa. Existe o modelo base, que é treinado para prever texto de forma geral, e existe o modelo ajustado para instruções, que aprende a se comportar de maneira mais obediente e útil quando você dá comandos. Esse segundo tipo é o que normalmente vira “chat” em produtos do dia a dia. O ajuste costuma envolver exemplos de perguntas e respostas e algum tipo de feedback humano para favorecer respostas mais seguras, claras e alinhadas ao que usuários querem. Resultado: em vez de simplesmente continuar um texto de forma neutra, ele tenta “ajudar”, organizar, seguir regras e responder no formato esperado.

Mesmo assim, não caia na armadilha: “obedecer” não é “saber”. Um modelo ajustado para instruções pode ser excelente em dar uma resposta bem estruturada, mas ainda pode errar fatos, inventar detalhes e confundir termos. Se você tratar o LLM como uma fonte final, você se coloca em risco. Se você tratar como uma ferramenta de rascunho e apoio, com verificação quando necessário, ele vira um multiplicador de produtividade.

Uma analogia boa é pensar nele como um autocompletar muito, muito avançado. Só que não é o autocompletar que sugere uma palavra; ele sugere frases inteiras, parágrafos, estilos e argumentos. Ele consegue manter coerência por um bom tempo, adaptar o tom (formal, informal, didático), criar exemplos e até “parecer” que está raciocinando. Mas por trás disso, o mecanismo fundamental continua sendo: dado um contexto, escolher a próxima continuação mais provável. Esse detalhe explica tanto o lado brilhante quanto o lado perigoso.

Para fechar a aula com algo prático, faça o seguinte exercício mental: sempre que você ler uma resposta de um LLM, pergunte “isso é provável ou é verificável?”. Se for provável (por exemplo, uma reescrita, um resumo de texto que você forneceu, uma lista de ideias), ótimo — use e refine. Se for verificável (um número, uma citação, uma regra, uma afirmação factual importante), trate como hipótese: peça fontes, cheque com documentos, compare com outras referências. Esse hábito simples separa quem usa LLM com inteligência de quem cai no efeito “parece verdadeiro, então deve ser”.

No fim das

contas, entender LLM é menos sobre decorar termos técnicos e mais sobre ajustar sua expectativa. Ele é ótimo para linguagem, péssimo como “oráculo”. Ele acelera trabalho, mas não substitui responsabilidade. E quanto mais cedo você internaliza isso, mais valor você extrai — e menos dor de cabeça você compra.

Referências bibliográficas

BROWN, Tom B. et al. Modelos de linguagem são aprendizes de poucas amostras (Language Models are Few-Shot Learners). Advances in Neural Information Processing Systems (NeurIPS), 2020.

GOODFELLOW, Ian; BENGIO, Yoshua; COURVILLE, Aaron. Aprendizado Profundo (Deep Learning). Cambridge: MIT Press, 2016.

JURAFSKY, Daniel; MARTIN, James H. Processamento de Linguagem Natural: uma introdução (Speech and Language Processing). 3ª ed. (rascunho/versão em evolução). 2023.

MANNING, Christopher D.; SCHÜTZE, Hinrich. Fundamentos de Processamento Estatístico de Linguagem Natural (Foundations of Statistical Natural Language Processing). Cambridge: MIT Press, 1999.

VASWANI, Ashish et al. Atenção é tudo o que você precisa (Attention Is All You Need). Advances in Neural Information Processing Systems (NeurIPS), 2017.


Aula 2 — Como um LLM aprende: dados, treinamento e alinhamento

 

Quando olhamos um LLM respondendo com tanta fluidez, a impressão é que ele “aprendeu como um aluno”: estudou, entendeu e agora explica. Só que o caminho real é diferente. Na aula anterior, você viu que a base de tudo é prever o próximo token. Nesta aula, a ideia é entender como ele chega nesse ponto: de onde vem o aprendizado, o que significa “treinar”, porque o modelo absorve vícios do mundo e por que existe uma etapa depois do treinamento que tenta torná-lo mais útil — e menos perigoso.

Vamos começar pelo começo: antes de virar um “chat obediente”, um LLM nasce como um modelo base. Esse modelo base é treinado com uma quantidade gigantesca de textos para fazer um trabalho simples de enunciar e difícil de executar: dado um trecho de texto, prever o próximo token repetidas vezes. Parece banal, mas pense no que isso exige. Para continuar uma frase com coerência, ele precisa captar gramática, estilo, relações entre ideias, termos técnicos, formas típicas de explicação, e até padrões de como as pessoas argumentam. Ele não está aprendendo “fatos” como quem memoriza um livro; ele está aprendendo uma rede de associações estatísticas que costuma produzir texto plausível em muitos contextos.

Uma forma boa de imaginar o treinamento é pensar em um jogo infinito de

completar lacunas. O modelo recebe um pedaço de texto e tenta adivinhar a próxima peça. Errou? O treinamento ajusta internamente os parâmetros para que, na próxima vez, ele erre menos em situações parecidas. Multiplique isso por bilhões de tentativas, em milhões de exemplos diferentes, e você tem um sistema que internalizou padrões impressionantes de linguagem. O ponto importante aqui é: durante essa fase, o modelo é uma espécie de “imitador geral de textos” — ele aprende a continuar qualquer coisa, inclusive coisas ruins, enviesadas ou incorretas, porque o objetivo não é ser ético nem ser verdadeiro. O objetivo é ser bom em prever.

E aí entra uma pergunta desconfortável, mas necessária: “de onde vêm esses textos?”. De muitos lugares — livros, artigos, sites, fóruns, documentos. E como o mundo real é bagunçado, desigual e cheio de conflitos, os dados também carregam isso. É por isso que a gente diz que LLMs herdam viés. Viés não é só “preconceito explícito” (que também pode aparecer). Viés inclui: dar mais espaço para visões dominantes, repetir estereótipos, tratar certas regiões, profissões ou grupos com menos nuance, e até priorizar estilos de escrita mais comuns no material de treino. O modelo aprende “como o texto costuma ser”, e isso inclui as distorções do que foi publicado e compartilhado em grande escala.

Depois que o modelo base está pronto, vem a parte que a maioria das pessoas realmente usa no dia a dia: o alinhamento. Se você colocasse um modelo base “cru” para conversar, ele seria instável: às vezes responderia, às vezes completaria de um jeito aleatório, às vezes seguiria uma instrução, às vezes ignoraria. Ele não foi criado para ser útil; foi criado para prever. Então, para transformá-lo em um assistente, são aplicadas técnicas de ajuste que, em termos simples, tentam responder à pergunta: “como fazer esse modelo se comportar de um jeito que as pessoas considerem útil, seguro e obediente a instruções?”.

Um caminho comum é treinar com exemplos de perguntas e respostas em que a saída desejada é mais clara: respostas educadas, organizadas, com passos, com explicações. Isso por si só já muda muito o comportamento: o modelo passa a reconhecer o padrão “quando alguém pergunta assim, o formato esperado é esse”. Mas ainda falta um ingrediente: o tal do feedback humano. De forma geral, humanos avaliam respostas e ajudam a “ensinar” o modelo a preferir algumas e evitar outras. Você pode imaginar isso como uma educação por reforço: respostas

melhores recebem “mais pontos”, respostas piores “menos pontos”, e o sistema aprende a favorecer o que foi mais bem avaliado. O resultado é o que você conhece: um chat que tenta cooperar, explicar, manter o tom e evitar comportamentos problemáticos.

Só que aqui vem o ponto crítico: alinhamento melhora a utilidade, mas não transforma o modelo em um detector de verdade. Isso nos leva a um dos fenômenos mais importantes para iniciantes: a chamada alucinação. Alucinação, nesse contexto, é quando o modelo produz uma resposta que soa correta, bem escrita e convincente, mas contém informações inventadas ou distorcidas. E isso não é um “defeito raro”; é uma consequência natural do objetivo do sistema. Ele foi treinado para gerar texto plausível. Se a pergunta exige um detalhe específico que não está bem “representado” no que ele aprendeu — ou se você pede algo que parece ter uma resposta típica (como “cite leis”, “traga dados”, “mostre fontes”) — ele pode preencher as lacunas com algo que parece uma fonte real, um número real, um nome real. Ele não tem, por padrão, um compromisso interno com o “isso é verificável”.

Aqui é onde muita gente se engana: acha que, porque o texto é fluido, houve compreensão. Não houve. Houve uma continuação provável. Se você pede referências, ele pode até fornecer, mas a confiabilidade disso depende de como o sistema foi construído e do contexto oferecido. Em situações em que ele não tem acesso a fontes reais no momento, ele pode “montar” referências com aparência acadêmica. A saída é você assumir um princípio simples: quando importa estar certo, a resposta do LLM é rascunho, não sentença.

Agora, vamos conectar isso ao mundo real com uma imagem bem direta. Pense em um aluno muito bom de redação que leu milhares de textos e aprendeu a escrever de qualquer jeito: artigo, resumo, relatório, explicação didática. Só que ele não tem obrigação de dizer “não sei”. Se você pressionar, ele vai tentar entregar algo, porque foi recompensado por ser útil. É exatamente por isso que, em algumas conversas, o LLM responde mesmo quando não tem base para responder com certeza. O modelo ajustado para instruções foi treinado para “ajudar”, e às vezes ajudar vira “chutar bonito”. Em termos práticos: quanto mais a pergunta pede precisão factual, mais você deve exigir limites, fontes, incerteza explícita, e, quando possível, validação externa.

Outro ponto importante é que, além de viés e alucinação, o treinamento em grande escala traz um efeito colateral:

o ponto importante é que, além de viés e alucinação, o treinamento em grande escala traz um efeito colateral: o modelo pode “absorver” estilos de escrita que parecem neutros, mas carregam suposições. Por exemplo, ele pode tratar uma prática de mercado como “normal” porque aparece com frequência nos textos, mesmo que seja discutível. Ou pode explicar um tema como se houvesse consenso, quando na verdade há controvérsia. Isso não é maldade nem intenção — é estatística. E o antídoto continua sendo o mesmo: pedir que o modelo explicite suposições, apresente alternativas, mostre limitações, e aceite dizer “não sei” quando a informação não estiver disponível.

Para fechar a aula de um jeito prático, guarde três ideias que mudam seu uso diário de LLM. Primeira: existe um “antes” e um “depois” — o modelo base aprende a prever texto, e o alinhamento tenta transformá-lo em assistente. Segunda: dados moldam comportamento — então viés não é acidente, é herança. Terceira: linguagem convincente não prova verdade — então alucinação é risco real, especialmente quando você pede detalhes específicos, números, leis, citações e fatos. Se você internalizar isso, você ganha uma habilidade rara: usar LLM com velocidade sem perder o senso crítico.

A partir daqui a sua postura como usuário fica mais madura. Você para de perguntar “ele está certo?” e passa a perguntar “que parte disso é hipótese? o que é verificável? o que precisa de fonte?”. Esse é o divisor de águas entre usar a ferramenta como brinquedo e usar como instrumento profissional.

Referências bibliográficas

BENDER, Emily M.; GEBRU, Timnit; McMILLAN-MAJOR, Angelina; SHMITCHELL, Shmargaret. Sobre os perigos de papagaios estocásticos: modelos de linguagem podem ser grandes demais?. Conferência ACM sobre Justiça, Responsabilidade e Transparência (FAccT), 2021.

BROWN, Tom B. et al. Modelos de linguagem são aprendizes de poucas amostras (Language Models are Few-Shot Learners). Advances in Neural Information Processing Systems (NeurIPS), 2020.

GOODFELLOW, Ian; BENGIO, Yoshua; COURVILLE, Aaron. Aprendizado Profundo (Deep Learning). Cambridge: MIT Press, 2016.

JURAFSKY, Daniel; MARTIN, James H. Processamento de Linguagem Natural: uma introdução (Speech and Language Processing). 3ª ed. (rascunho/versão em evolução). 2023.

O’NEIL, Cathy. Armas de destruição matemática: como o Big Data aumenta a desigualdade e ameaça a democracia. São Paulo: Editora Rua do Sabão, 2016.

VASWANI, Ashish et al. Atenção é tudo o que você

precisa (Attention Is All You Need). Advances in Neural Information Processing Systems (NeurIPS), 2017.


Aula 3 — Capacidades e limites: onde usar e onde NÃO usar

 

Quando alguém começa a usar um LLM, a primeira reação costuma ser: “isso é incrível, ele faz de tudo”. E faz mesmo — pelo menos na aparência. O problema é que, justamente por escrever bem e com segurança, o modelo cria uma ilusão perigosa: a sensação de que ele “sabe” e “tem certeza”. A aula de hoje é para colocar os pés no chão: entender em que tipos de tarefas um LLM costuma brilhar, em quais ele costuma falhar e, principalmente, como você decide quando confiar, quando revisar e quando simplesmente não usar.

Uma forma honesta de resumir: LLM é ótimo para trabalho com linguagem, e fraco para garantia de verdade. Se a tarefa é transformar texto — resumir, reescrever, organizar ideias, adaptar tom, gerar variações, criar roteiros, montar uma estrutura inicial — ele tende a ser muito eficiente. Isso acontece porque o “músculo” dele é justamente reconhecer padrões de escrita e produzir continuidades plausíveis. É como ter um assistente que escreve rápido, tem repertório de estilos e nunca cansa. Quando você usa o LLM para esses fins, você está jogando o jogo dele.

Agora, se a tarefa exige precisão factual ou responsabilidade alta, o cenário muda. O LLM pode errar datas, nomes, leis, números e detalhes específicos — e pior: pode errar de forma convincente. Não é porque ele é “ruim”; é porque o mecanismo dele não foi desenhado para validar verdade no mundo real. Ele não confere uma base de dados oficial por padrão. Ele produz uma resposta provável. Isso significa que, quando o assunto é informação crítica (jurídico, saúde, finanças, segurança, decisões que afetam pessoas), você precisa tratar a resposta como rascunho e não como conclusão.

Aqui vale uma regra simples que evita 80% das dores de cabeça: antes de usar um LLM, pergunte “se isso der errado, qual é o custo?”. Se o custo é baixo — um rascunho de e-mail, ideias para uma aula, sugestões de tópicos, um resumo de um texto que você forneceu — ótimo, use à vontade. Se o custo é alto — um contrato, uma orientação de saúde, uma política interna, um dado que vai para um relatório público — então o modelo pode até ajudar, mas você precisa de verificação externa e responsabilidade humana. A decisão não é “usar ou não usar”; é “usar com que nível de checagem”.

Vamos mapear os usos em três zonas bem práticas.

Zona verde: uso seguro e eficiente.

Aqui entram tarefas em que o LLM é quase um “power tool” de produtividade: rascunhar textos, melhorar clareza, resumir conteúdo que você já tem, transformar um texto longo em tópicos, criar perguntas para estudo, gerar exemplos, explicar um conceito em linguagem simples, sugerir estrutura de aula, revisar gramática, criar versões mais formais ou mais amigáveis. Em tudo isso, você consegue validar olhando: “está bem escrito?”, “faz sentido?”, “ficou coerente com meu objetivo?”. Você continua sendo o dono do conteúdo, e o LLM é um editor/assistente.

Zona amarela: útil, mas exige procedimento. Aqui entram coisas como: explicar um tema técnico, comparar abordagens, sugerir referências, montar um plano de projeto, criar respostas para atendimento ao cliente, listar riscos e contramedidas, ajudar a interpretar um regulamento, gerar cálculos simples, criar código, recomendar ferramentas. Nessa zona, o LLM pode produzir algo muito bom — mas também pode “completar lacunas” e inventar detalhes. O antídoto é processo: pedir ao modelo para listar suposições, pedir opções, pedir pontos fracos, exigir fontes e conferir pelo menos o que é mais sensível. Em outras palavras: usar o LLM para ganhar tempo, mas não para decidir sozinho.

Zona vermelha: não use como autoridade. A zona vermelha é onde a resposta errada pode causar dano real e rápido: recomendações médicas, diagnósticos, orientação jurídica como se fosse parecer, decisões financeiras sem validação, instruções de segurança, políticas que afetem direitos de pessoas, dados pessoais e informações confidenciais. Aqui o LLM pode até ser usado como apoio — por exemplo, para organizar perguntas que você vai fazer a um profissional — mas não como fonte final. Se você usar como fonte final, não é “azar”; é imprudência.

Um ponto que iniciante costuma ignorar é o seguinte: o risco não vem só do conteúdo estar errado. O risco vem de você não perceber que está errado. Como o texto é bem escrito, nosso cérebro relaxa. É por isso que, na prática, a competência mais importante ao usar LLM não é “saber dar prompt”. É saber avaliar saída. É aprender a desconfiar do que soa perfeito demais, do que parece completo demais sem apontar limitações, do que traz números “certinhos” sem mostrar de onde veio.

Então, como reduzir erro de forma objetiva? Você pode aplicar três táticas simples.

A primeira é pedir transparência: “liste as suposições que você fez”, “quais pontos você não tem certeza?”, “o que eu preciso te informar para

você fez”, “quais pontos você não tem certeza?”, “o que eu preciso te informar para você responder com segurança?”. Isso força o modelo a sair do modo “resposta fechada” e entrar no modo “resposta condicionada”. Muitas vezes, só essa pergunta já revela que ele estava trabalhando com palpites.

A segunda é pedir checagem interna: “apresente possíveis falhas da sua resposta”, “mostre argumentos contra”, “dê uma alternativa mais conservadora”. Isso melhora qualidade porque reduz a chance de uma resposta unilateral, e te dá material para comparar.

A terceira é separar o que é texto do que é fato. Texto (forma, clareza, estrutura) é o território do LLM. Fato (datas, leis, dados, citação) é território de fonte. Quando você mistura os dois e aceita tudo junto, você vira refém do estilo. Quando você separa e valida o factual, você ganha o melhor dos dois mundos.

Vamos trazer isso para algo cotidiano. Imagine que você peça: “faça um resumo desse artigo”. Se você deu o artigo para o modelo, ele tende a ir muito bem — porque ele está trabalhando em cima de um conteúdo fornecido. Agora imagine que você peça: “quais são as leis brasileiras que regulam cursos livres e cite artigos”. Aqui a chance de alucinar aumenta, porque você está pedindo precisão e referência. O LLM pode até citar leis reais, mas pode confundir artigos, misturar decretos e inventar detalhes. O jeito certo de usar nesse caso é: peça um rascunho e depois valide em fontes oficiais. O modelo te dá velocidade; a fonte te dá segurança.

Outra armadilha comum é achar que o LLM é bom em “números”. Às vezes ele acerta contas simples; às vezes erra coisa básica. O que você faz com isso? Você não discute com o modelo: você usa uma calculadora, uma planilha ou um sistema confiável e usa o LLM para explicar o raciocínio e escrever o texto. De novo: linguagem com o LLM, precisão com ferramentas apropriadas.

E tem um último ponto que vale ouro: quando o modelo é colocado numa situação em que ele deveria dizer “não sei”, ele frequentemente tenta ajudar mesmo assim. Isso é especialmente comum em modelos ajustados para instruções, porque eles foram treinados para serem cooperativos. Então você precisa dar permissão explícita para a resposta “não sei” aparecer. Um bom comando é: “Se você não tiver certeza, diga ‘não tenho informação suficiente’ e me diga o que você precisaria para responder”. Isso muda o comportamento porque você está definindo um critério de qualidade: melhor admitir limite do que inventar.

Se

você sair desta aula com uma única ideia, que seja esta: LLM não é um juiz da verdade; é um gerador de texto altamente competente. Use como um copiloto de escrita e raciocínio inicial, mas mantenha você mesmo no papel de editor, auditor e responsável. A ferramenta é poderosa, mas o poder real está no seu método de uso: escolher tarefas adequadas, definir risco, exigir limites e verificar o que importa.

Referências bibliográficas

BENDER, Emily M.; GEBRU, Timnit; McMILLAN-MAJOR, Angelina; SHMITCHELL, Shmargaret. Sobre os perigos de papagaios estocásticos: modelos de linguagem podem ser grandes demais?. Conferência ACM sobre Justiça, Responsabilidade e Transparência (FAccT), 2021.

FLORIDI, Luciano; CHIRIATTI, Massimo. GPT-3: seus impactos potenciais na sociedade. Minds and Machines, 2020.

GOODFELLOW, Ian; BENGIO, Yoshua; COURVILLE, Aaron. Aprendizado Profundo (Deep Learning). Cambridge: MIT Press, 2016.

JURAFSKY, Daniel; MARTIN, James H. Processamento de Linguagem Natural: uma introdução (Speech and Language Processing). 3ª ed. (rascunho/versão em evolução). 2023.

O’NEIL, Cathy. Armas de destruição matemática: como o Big Data aumenta a desigualdade e ameaça a democracia. São Paulo: Editora Rua do Sabão, 2016.

RUSSELL, Stuart; NORVIG, Peter. Inteligência Artificial (Artificial Intelligence: A Modern Approach). 4ª ed. Rio de Janeiro: LTC, 2021.


Estudo de caso do Módulo 1

 

Título: “O chatbot que virou funcionário fantasma”
Foco: entender o que LLM é (previsão de texto), como ele aprende (dados + alinhamento) e onde ele falha (alucinação, viés, falsa segurança).

Contexto

A Loja Aurora (e-commerce de produtos para casa) cresceu rápido e o suporte virou gargalo. O dono decide “resolver com IA”: compra uma ferramenta com chatbot baseado em LLM, conecta um FAQ simples e libera no site com o anúncio:

“Atendimento 24h com respostas precisas e imediatas.”

Em duas semanas, os tickets caem 40%. Todo mundo comemora.

Até que começam os problemas.

Parte 1 — O primeiro erro: confundir fluência com verdade

Uma cliente pergunta no chat:

Cliente: “Comprei um aspirador há 20 dias. Ainda posso trocar?”
Chatbot: “Sim! Você pode trocar em até 30 dias após a compra. Basta enviar o produto para nosso centro de devoluções. O frete é por nossa conta.”

Só que a política real da Loja Aurora era: troca em 7 dias, e depois disso só garantia com fabricante. O chatbot inventou uma regra plausível (30 dias é comum no mercado), mas inexistente ali.

Efeito em cascata

  • Cliente exige o direito prometido.
  • Atendimento humano vira “vilão” ao negar.
  • Avaliação negativa: “Empresa não cumpre o que o próprio chat diz.”
  • Retrabalho e prejuízo (frete + logística + reembolso para evitar crise).

Erro comum #1: tratar o LLM como “fonte oficial” em vez de “gerador de texto provável”.

Como evitar

  • Regra de ouro: chatbot não cria política, ele só repete política oficial.
  • Respostas sobre troca/garantia/pagamento devem vir de base fechada (documento interno/FAQ validado).
  • Se não houver informação: resposta padrão segura:
    “Não tenho essa informação com certeza. Vou encaminhar para o atendimento humano.”
  • Implementar “modo citação”: sempre que possível, responder citando trecho da política (ou link interno) e não “inventando”.

Parte 2 — O segundo erro: achar que “ajuste para instruções” virou “bom senso”

A gerente pede: “Chatbot, seja mais simpático e resolutivo”.

O chatbot passa a tentar “resolver” tudo.

Cliente: “Meu pedido atrasou. Você pode me dar um cupom?”
Chatbot: “Claro! Aqui está um cupom de 20%: AURORA20.”

Não existia cupom. O modelo “quis ajudar”. Ele não sabe o que é permitido; sabe o que soa útil.

Erro comum #2: confundir “obedecer” com “ter autorização”.

Como evitar

  • Criar um prompt de sistema com limites claros (ex.: “nunca crie cupons”, “nunca prometa frete grátis”, “nunca confirme reembolso”).
  • “Escalonamento” obrigatório para concessões: qualquer coisa que envolva dinheiro → humano.
  • Adotar listas de permissões: o bot só pode oferecer opções pré-aprovadas.

Parte 3 — O terceiro erro: ignorar vieses e tratar “tom confiante” como competência

Um cliente escreve com erros de português e gírias:

Cliente: “Meu pedido num chegô… vcs tão me enrolando?”
Chatbot: “Verifique novamente seu endereço e aguarde. Seu pedido está dentro do prazo.”

Em outra conversa, um cliente escreve formalmente:

Cliente: “Bom dia. Poderia verificar o status do meu pedido, por gentileza?”
Chatbot: “Claro! Vou te ajudar. Sinto muito pelo transtorno. Vamos resolver agora.”

O time percebe um padrão: com mensagens “bagunçadas”, o bot responde mais seco e às vezes joga a culpa no cliente. Isso acontece porque o modelo reproduz padrões aprendidos em dados: certos estilos de escrita podem receber tratamento diferente.

Erro comum #3: achar que o LLM é “neutro” por padrão.

Como evitar

  • Definir política de tom: respeito e empatia sempre, independente
  • do estilo do cliente.
  • Testar com perfis variados (formal, informal, erros, abreviações, diferentes regiões).
  • Criar uma rotina de auditoria: amostrar conversas e marcar respostas problemáticas.
  • Incluir no prompt: “trate todos com o mesmo respeito; não atribua culpa sem evidência”.

Parte 4 — O quarto erro: confiar em respostas quando falta contexto

O bot foi conectado a um FAQ, mas o FAQ era superficial. Muitas perguntas reais não estavam lá.

Cliente: “Meu produto veio com defeito. O que faço?”
Chatbot: “Leve a uma assistência técnica autorizada na sua cidade.”

O bot não tinha lista de assistências, nem garantia de que existiam autorizadas na cidade do cliente. Resposta plausível, mas inútil.

Erro comum #4: colocar o LLM para responder sem ter informação suficiente (ele vai preencher lacunas).

Como evitar

  • Ensinar o bot a fazer perguntas antes de responder:
    • “Qual o número do pedido?”
    • “Qual o modelo?”
    • “Qual sua cidade?”
    • “Você recebeu há quantos dias?”
  • Se não houver dados, ele deve parar e pedir o mínimo necessário.
  • Se ainda assim não tiver base, encaminhar para humano com resumo da conversa.

Virada: o que a Loja Aurora faz para consertar

Depois do caos, eles reestruturam o uso do LLM em três camadas:

1) Respostas “de verdade” (base oficial)

  • Política de troca, prazos, pagamento, garantia: respostas somente com base validada.
  • Se não encontrar: “não sei” + humano.

2) LLM como redator, não como juiz

  • Ele escreve de forma clara e simpática, mas não decide.
  • Ele pode sugerir um rascunho de resposta para o atendente humano aprovar.

3) Checklist de risco por tipo de pergunta

  • Verde: dúvidas simples e gerais → bot responde.
  • Amarelo: casos com variáveis (prazo, defeito, entrega) → bot pergunta e responde só se houver base.
  • Vermelho: reembolso, cupom, ameaça jurídica, dados sensíveis → humano.

Resultado: queda menor nos tickets (agora 20% em vez de 40%), mas praticamente zera crise, chargeback e reclamação pública. Eles param de buscar “automação total” e passam a buscar “automação com responsabilidade”.

Lições do Módulo 1

1.     LLM não é oráculo: ele gera texto provável.

2.     Alinhamento faz parecer útil, mas não dá autorização nem verdade.

3.     Dados trazem viés: teste com diversidade e imponha política de tom.

4.     Sem contexto, ele inventa: ensine a perguntar e a dizer “não sei”.

Quer acesso gratuito a mais materiais como este?

Acesse materiais, apostilas e vídeos em mais de 3000 cursos, tudo isso gratuitamente!

Matricule-se Agora