Portal IDEA

Introdução à Ciência da Informação

INTRODUÇÃO À CIÊNCIA DA INFORMAÇÃO

 

MÓDULO 2 — Como organizar informação para que ela seja encontrada (e não vire cemitério digital)

Aula 4 — Metadados: o que são e por que salvam sua vida

 

Quando falamos em “metadados”, muita gente torce o nariz porque parece palavra de gente técnica. Só que metadados são uma ideia bem simples: são pistas organizadas que dizem o que é um item, de onde veio, quando foi feito, qual é a versão certa e como ele deve ser usado. Em outras palavras: metadados são o que transforma um arquivo perdido num computador em algo que você consegue encontrar, entender e confiar. E, no mundo real, é isso que separa um repositório útil de um cemitério digital.

Pense no seu dia a dia: você tem PDFs, fotos, planilhas, apresentações, mensagens, links. Sem metadados, você depende da sorte ou da memória (“acho que estava naquela pasta…”, “acho que foi em fevereiro…”, “acho que a versão certa é essa”). Com metadados, você começa a diminuir a incerteza: “isso é a avaliação do 2º bimestre, versão 3, aprovada, para alunos do 9º ano, publicada em 2 de março, responsável tal”. Repare no efeito: a informação deixa de ser “um arquivo” e passa a ser um objeto confiável dentro de um contexto.

Um jeito bem didático de entender metadados é aceitar uma verdade meio dura: o computador não “entende” seus arquivos do jeito que você entende. Se você salva um documento como “final_final_agora_vai.pdf”, isso pode até fazer sentido emocionalmente por cinco minutos — mas para recuperar depois é péssimo. Metadados existem porque a gente precisa criar uma linguagem mínima entre pessoas e sistemas. O próprio IBICT descreve que metadados são organizados em esquemas, que padronizam e permitem melhor uso e troca de informação entre iniciativas que usam o mesmo modelo.

A partir daí, entra uma distinção importante: metadado não é só “título e autor”. Metadados podem carregar várias dimensões. Em repositórios e gestão documental, é comum falar em metadados descritivos (o que é, sobre o que é), técnicos (formato, resolução, software), administrativos (quem pode acessar, licença, direitos), de preservação (o que precisa para manter acessível no tempo) e estruturais (como partes se relacionam: capítulo, anexos, versões). Essa variedade de categorias aparece em discussões e sistematizações na literatura da área, justamente porque “metadados” não são um rótulo único — são um conjunto de funções para tornar a informação utilizável.

Agora, vamos sair do conceito e

entrar no que interessa: como isso salva tempo e evita erro. Imagine uma escola organizando planos de aula e avaliações. Se cada professor salva do seu jeito, três coisas acontecem inevitavelmente: (1) versões se multiplicam, (2) materiais circulam fora de contexto, (3) ninguém sabe qual é o oficial. Metadados são o antídoto porque tornam explícito aquilo que normalmente fica “na cabeça de alguém”. A Biblioteca Nacional, em seus materiais de orientação sobre preservação e gestão de digitais, reforça a importância de padronizar procedimentos para trazer agilidade e segurança no trabalho com documentos digitais — e isso conversa diretamente com a ideia de registrar contexto e controle.

Só que tem uma pegadinha: metadados só funcionam se forem mínimos, consistentes e fáceis de aplicar. Iniciante costuma errar por excesso: cria 25 campos, ninguém preenche, vira burocracia e o sistema morre. O caminho certo é começar com um conjunto pequeno, mas poderoso, e evoluir depois. Um “mínimo viável” que costuma funcionar em quase qualquer contexto (escola, empresa, clínica, projetos pessoais) é:

  • Título claro (não “Documento”, nem “Aula”)
  • Assunto/Tema (o que descreve o conteúdo)
  • Responsável/Autor (quem responde por aquilo)
  • Data (criação e/ou publicação)
  • Versão (v1, v2, v3)
  • Status (rascunho / em revisão / aprovado)
  • Público (interno / alunos / clientes)

Perceba: isso não é frescura. Isso responde as perguntas que realmente quebram equipes: “qual é o certo?”, “quem fez?”, “isso está valendo?”, “é para quem?”, “é atual?”.

Nesse ponto, ajuda conhecer um padrão famoso porque ele mostra como o mundo resolve isso de forma interoperável: o Dublin Core, um conjunto de elementos pensado para descrever recursos (especialmente digitais) e facilitar descoberta e recuperação. A ideia aqui não é você decorar normas, mas entender a lógica: se muita gente descreve recursos com um “vocabulário comum”, fica mais fácil trocar, buscar e integrar informações. O próprio DCMI discute níveis de interoperabilidade (o quão “compatível” um projeto é com Dublin Core), o que na prática vira uma pergunta de trabalho: “meu jeito de registrar informação conversa com outros sistemas ou é um dialeto fechado da minha equipe?”.

Agora vem a parte mais realista da aula: metadados não ficam só num formulário bonitinho. Muitas vezes, para iniciantes, o primeiro lugar onde metadados “pegam” é no nome do arquivo e na estrutura de pastas. Se você ainda não tem um

sistema robusto, um padrão de nomeação já reduz caos imediatamente. Por exemplo:

ANO_MES_PROJETO_TIPO_TEMA_STATUS_VERSAO_RESPONSAVEL
Algo como: 2026-03_Mat9_Avaliacao_Funcoes_APROVADO_v3_Livia.pdf

Isso não substitui um repositório bem modelado, mas evita os erros mais caros: versão errada, arquivo perdido, duplicidade, retrabalho. E, sobretudo, impede que “final_final” vire a regra cultural do time.

Outro erro comum de iniciante é achar que metadados são só para “achar depois”. Não. Metadados também servem para governança: quem pode ver, o que pode circular, o que é confidencial, o que é público. Quando você adiciona “público-alvo” e “status”, você está criando um freio para vazamentos e confusões. Isso é especialmente importante em ambientes com dados sensíveis (educação, saúde, jurídico). De novo: não é paranoia; é maturidade informacional.

E tem um ganho ainda mais subestimado: metadados melhoram a busca. Quando você registra assunto, palavras-chave, série/área, tipo de documento e data, você dá combustível para qualquer mecanismo de recuperação funcionar melhor — seja um sistema sofisticado, seja a busca do Drive. Quando metadados faltam, a busca vira tentativa e erro; quando metadados existem, a busca vira estratégia.

Para fechar a aula com algo prático, pense assim: metadados são uma promessa. A promessa é: “no futuro, alguém vai conseguir recuperar e usar isso sem depender de mim”. Se você cria metadados bons, você está fazendo um favor para o seu “eu do futuro” e para qualquer equipe que dependa daquilo. Se você não cria, você está empurrando custo para frente — e esse custo sempre volta, geralmente no pior momento (quando é urgente, quando alguém saiu da equipe, quando precisa provar algo, quando há auditoria, quando há prazo).

No fim, o objetivo desta aula não é te transformar em “fiscal de formulário”. É te dar um olhar: toda vez que você produzir ou guardar algo, pergunte mentalmente: “Que metadados mínimos fazem isso ser encontrável e confiável?” Se você fizer só isso de forma consistente, você já vai estar acima de muita gente que trabalha há anos produzindo informação… e perdendo tudo dentro do próprio caos.

Referências bibliográficas

  • FUNDAÇÃO BIBLIOTECA NACIONAL. Manual de Procedimentos de Gestão de Documentos Digitais e Nato-digitais. Rio de Janeiro: FBN, 2020.
  • FUNDAÇÃO BIBLIOTECA NACIONAL. Manual de boas práticas de Preservação Digital. Rio de Janeiro: FBN, 2024.
  • INSTITUTO BRASILEIRO DE INFORMAÇÃO EM
  • CIÊNCIA E TECNOLOGIA (IBICT). Gerenciar metadados. Wiki IBICT.
  • SANTOS, Plácida Leopoldina Ventura Amorim da Costa; et al. Dados e metadados: conceitos e relações. Ciência da Informação, IBICT, 2020.
  • SILVA, Wellington; et al. Metadados e tipos de metadados: conceitos, categorias e relações. Inclusão Social, IBICT, 2024.
  • GRÁCIO, José Carlos de Abreu. Metadados para a descrição de recursos de informação: o padrão Dublin Core, aplicações e a questão da interoperabilidade. Ciência da Informação, SciELO, 2002.
  • DUBLIN CORE METADATA INITIATIVE (DCMI). Níveis de interoperabilidade com os metadados Dublin Core™. Tradução em português.


Aula 5 — Classificação, taxonomia e folksonomia: categorias que funcionam no mundo real

 

Quando falamos em classificar informação, muita gente imagina uma tarefa chata: colocar coisas em caixinhas, dar nomes, criar pastas. Só que, na vida real, classificação é uma forma de evitar desperdício. É o que impede você de perder tempo procurando o que já existe, de usar a versão errada, de repetir trabalho e de tomar decisões baseado em “achismos” porque não achou a fonte certa. A Aula 5 do módulo 2 (classificação, taxonomia e folksonomia) é, no fundo, sobre uma pergunta bem prática: como organizar informação do jeito que as pessoas realmente procuram — e não do jeito que parece bonito no papel?

Comece por uma ideia simples: quando você organiza algo, você está fazendo uma aposta sobre o futuro. Você está dizendo: “quando alguém precisar disso depois, vai procurar por este caminho”. O problema é que iniciantes costumam organizar com base no momento em que guardam, não no momento em que vão precisar recuperar. A pessoa cria uma pasta chamada “Importante”, outra chamada “Diversos”, outra chamada “Coisas da escola”, e na hora de achar… nada encaixa. O que parecia “rápido” no começo vira um labirinto depois. Classificar bem é pensar com a cabeça de quem vai buscar, muitas vezes alguém que não foi quem salvou.

É aqui que entra a taxonomia: um conjunto de categorias organizado de forma controlada e consistente, normalmente com hierarquia. É o “mapa oficial” da informação. Em escolas, pode ser algo como “Série → Disciplina → Bimestre → Tipo de material”. Em empresas, pode ser “Área → Processo → Documento”. A vantagem da taxonomia é que ela cria ordem e previsibilidade. Quando duas pessoas classificam do mesmo jeito, a chance de encontrar aumenta muito. O lado ruim é que, se a taxonomia

for mal pensada, ela vira uma gaiola: rígida, burocrática e distante da linguagem real de quem usa.

Do outro lado está a folksonomia, que é a classificação feita pelas próprias pessoas usuárias, geralmente por meio de tags (marcadores). É o jeito “natural” de organizar: eu marco algo como “avaliação”, “prova”, “funções”, “9º ano”, “matemática”, “bimestre2” e pronto. A folksonomia tem uma força enorme: ela aproxima a organização da linguagem comum e do jeito como o usuário pensa. Mas ela também tem um preço: sem algum tipo de controle mínimo, surgem variações infinitas (“prova”, “provinha”, “avaliação”, “teste”), erros de digitação, termos ambíguos e tags inúteis (“urgente”, “top”, “importante”).

A grande sacada didática dessa aula é perceber que taxonomia e folksonomia não são inimigas. Elas são respostas diferentes para problemas diferentes. Taxonomia é melhor quando você precisa de padronização, estabilidade, controle e consistência — especialmente em ambientes formais, com auditoria, validade documental, responsabilidades claras. Folksonomia é melhor quando o volume de conteúdo cresce rápido, quando muita gente contribui, quando o vocabulário muda com frequência e quando você quer capturar a linguagem viva da comunidade. E, na prática, muitos ambientes funcionam melhor com um modelo híbrido: uma taxonomia base (o “esqueleto”) e tags livres (a “pele” flexível) para refinar.

Só que antes de pensar em modelos, vale encarar os erros mais comuns — porque eles são previsíveis e repetidos em quase todo lugar.

O primeiro erro é o mais clássico: categoria vaga. “Diversos”, “Outros”, “Coisas”, “Importante”. Essas categorias são um atalho mental para não decidir. E o custo vem depois: tudo cabe ali, então nada é recuperável. Se você tiver uma pasta “Diversos” com 300 arquivos, é o mesmo que não ter classificação. A regra é dura, mas ajuda: se uma categoria pode receber qualquer coisa, ela não serve para quase nada.

O segundo erro é criar categorias demais. Parece organizado, mas vira um sistema impossível de manter. Você cria 80 pastas, subpastas e subpastas… e ninguém segue. A organização boa é aquela que dá para aplicar em cinco segundos, sem pensar demais. Se classificar dá trabalho, as pessoas vão driblar o sistema e guardar onde der. Em vez de “mais categorias”, o iniciante deveria buscar “categorias melhores”: poucas, claras e realmente usadas.

O terceiro erro é misturar critérios na mesma árvore. Por exemplo: uma pasta por “disciplina”, dentro dela

uma pasta por “disciplina”, dentro dela uma pasta por “tipo de material”, e de repente aparece uma pasta por “nome do professor”, e depois uma por “urgente”. Você mistura “assunto”, “formato”, “pessoa” e “prioridade” na mesma hierarquia, e isso quebra a lógica. A hierarquia precisa seguir um critério principal. O resto vira tag ou vira metadado. Em bom português: a pasta é para o que é estrutural; tag é para o que varia e cruza.

O quarto erro é ignorar sinônimos e variações. A equipe usa “matrícula”, mas o usuário procura “inscrição”. A equipe chama de “plano de aula”, mas o aluno procura “conteúdo” ou “material”. Quando isso acontece, a informação até existe, mas ninguém acha. Um bom sistema de classificação não força a pessoa a “adivinhar a palavra certa”. Ele prevê variações e cria pontes: sinônimos, equivalências, tags relacionadas, termos preferidos.

E tem um erro mais sutil, mas devastador: organizar pensando só em “onde guardar” e esquecendo “como buscar”. A classificação é uma forma de navegação, mas a busca é outra. Se você tem uma taxonomia enxuta e metadados mínimos, você pode recuperar por vários caminhos. Se você depende apenas de uma árvore rígida de pastas, qualquer dúvida vira um beco sem saída.

Para tornar isso mais humano, pense em como você encontra coisas na vida real. Você lembra de um documento por diferentes pistas: “foi no ano passado”, “foi com tal pessoa”, “era sobre tal tema”, “era um modelo de avaliação”, “era a versão aprovada”. Um bom sistema de organização respeita isso e permite múltiplos caminhos. É por isso que se fala em classificação facetada (mesmo sem usar esse nome): em vez de depender de uma única hierarquia, você organiza por aspectos diferentes — tema, público, tipo, data, status, responsável — e deixa o usuário combinar essas pistas.

Agora, se você quer uma orientação prática e honesta para iniciantes, aqui vai um caminho que funciona na maioria dos cenários:

1.     Defina o objetivo do repositório: é para achar rápido? Para preservar histórico? Para provar validade? Para reutilizar materiais?

2.     Escolha 1 critério principal para a árvore (taxonomia base): por exemplo, “Processo” ou “Área/Série”.

3.     Limite a hierarquia a 2 níveis no começo. Mais do que isso, vira labirinto.

4.     Crie tags livres com regras simples: sem tags subjetivas (“importante”), padronizar singular/plural, evitar siglas obscuras, revisar tags repetidas periodicamente.

5.     Teste com itens reais (não com teoria): pegue

10–20 documentos e veja se o encaixe é natural. Onde doeu é onde sua taxonomia precisa mudar.

O teste com itens reais é o ponto que muita gente pula — e paga depois. Uma taxonomia só “existe” quando alguém consegue aplicá-la sem sofrer. Se você precisa explicar por 10 minutos onde guardar um arquivo, o sistema já perdeu. A organização certa é aquela que a pessoa entende quase sem treinamento, porque a lógica combina com a forma como ela pensa e trabalha.

No fim, a aula quer te entregar uma mentalidade: classificação não é capricho, é infraestrutura. Taxonomia dá consistência; folksonomia dá flexibilidade; metadados dão contexto. Quando esses três se alinham, você não cria apenas “pastas organizadas”. Você cria um ambiente em que a informação circula melhor, é encontrada mais rápido e causa menos erro. E isso muda o jogo em qualquer lugar: escola, empresa, clínica, projeto pessoal — onde houver informação e gente tentando trabalhar sem enlouquecer.

Referências bibliográficas

  • ASSIS, Juliana. Folksonomias e pós-verdade: desafios para a organização do conhecimento. Liinc em Revista, 2021.
  • BORGES, Mônica Erichsen Nassif; CAMPOS, Maria Luiza de Almeida. Organização e representação do conhecimento. Rio de Janeiro: Elsevier, 2012.
  • COADIC, Yves-François Le. A Ciência da Informação. Brasília: Briquet de Lemos, 2004.
  • ROBREDO, Jaime. Documentação e informação: introdução aos princípios e técnicas. Brasília: Briquet de Lemos, 2003.
  • VANDER WAL, Thomas. Folksonomia: conceito e fundamentos (referência conceitual do termo, discutida na literatura da área).
  • ZAFALON, Zaira Regina; et al. Folksonomias como ferramenta da organização e representação da informação e do conhecimento. RDBCI: Revista Digital de Biblioteconomia e Ciência da Informação, 2013.
  • (Autores diversos). A noção de folksonomia: uma abordagem terminológica. TradTerm: Revista do Centro Interdepartamental de Tradução e Terminologia (USP), 2011.


Aula 6 — Indexação e recuperação: como a busca “pensa”

 

A busca parece mágica quando funciona. Você digita meia dúzia de palavras e, em segundos, aparece “exatamente aquilo” que você queria. Mas quando falha, ela falha de um jeito que irrita: vem coisa demais, coisa nada a ver, ou não vem nada — e você fica com aquela sensação de que a informação “sumiu”, mesmo estando ali. A aula 6 do módulo 2 é sobre tirar essa magia da névoa e entender, de um jeito bem humano, como a busca

“pensa”. Não para você virar programador, mas para você parar de sofrer com repositórios bagunçados e aprender a buscar (e a organizar) com estratégia.

Vamos começar pela ideia mais importante: uma busca não lê seus documentos como você lê. Ela trabalha com representações. Em geral, ela quebra textos em termos (palavras ou partes de palavras), remove “miudezas” (como artigos e preposições, dependendo do sistema), normaliza variações e monta um grande mapa que liga termos → documentos. Esse mapa é o que muita literatura chama de índice (frequentemente um “índice invertido”, porque ele parte do termo e aponta para onde ele aparece). Essa etapa é a indexação: transformar conteúdo em algo recuperável. Sem indexação decente, a busca vira uma leitura lenta e cega; com indexação boa, ela vira um atalho inteligente. (E sim: é por isso que a qualidade da indexação costuma determinar o quanto um sistema de busca presta.)

Agora vem o choque de realidade: a busca quase nunca responde “o certo”. Ela responde “o mais provável”. O que ela faz é ordenar resultados por relevância — uma tentativa de adivinhar o que você quer. E relevância não é uma verdade universal; ela depende do contexto, do seu objetivo, do seu vocabulário, do jeito como o conteúdo foi descrito e até do comportamento de quem usa o sistema. É por isso que dois alunos podem pesquisar a mesma coisa e escolher materiais diferentes; e é por isso que uma equipe pode jurar que “não existe um documento”, quando existe, mas foi nomeado com termos que ninguém usa.

Um exemplo simples deixa isso claro. Imagine que você quer achar um documento sobre “matrícula”. Você digita “matrícula 2026 documentos necessários”. Só que no repositório o arquivo está descrito como “inscrição” e “lista de exigências”. A busca pode até achar, mas pode jogar lá para baixo porque as palavras não casam. Aqui aparece um dos grandes vilões da recuperação de informação: sinônimos e variação de linguagem. Usuário fala de um jeito, equipe registra de outro. Se o sistema não tem um “dicionário” de equivalências (ou se o conteúdo não traz esses termos alternativos em metadados), a busca empaca. Resultado: a pessoa conclui que o conteúdo não existe e cria outro — duplicando caos.

E tem um segundo vilão, ainda mais comum: ambiguidade. “Plano” pode ser plano de aula, plano de saúde, plano financeiro. “Avaliação” pode ser avaliação diagnóstica, avaliação institucional, avaliação de desempenho. “Histórico” pode ser histórico escolar, histórico

de ser plano de aula, plano de saúde, plano financeiro. “Avaliação” pode ser avaliação diagnóstica, avaliação institucional, avaliação de desempenho. “Histórico” pode ser histórico escolar, histórico de atendimento, histórico de versão. A busca não tem telepatia: se a consulta é ambígua, ela vai tentar acertar no escuro. É aí que entra a parte prática da aula: aprender a transformar uma busca “preguiçosa” em uma busca “direcionada”.

Uma forma de fazer isso é pensar em três camadas: termos essenciais, termos de contexto e termos de restrição. Termos essenciais são o núcleo do que você quer (“avaliação”, “funções”). Termos de contexto situam (“9º ano”, “bimestre 2”, “matemática”). Termos de restrição cortam o ruído (“aprovado”, “versão 3”, “2026”). Quando você coloca essas camadas na busca, você faz o sistema trabalhar a seu favor. Se o ambiente permitir, você ainda usa operadores (aspas para frase exata, exclusão de termo, etc.). Mesmo quando não há operadores, a lógica continua valendo: seja específico com contexto e restrição.

Só que buscar bem resolve metade do problema. A outra metade é o que quase ninguém quer admitir: muitas buscas falham porque o conteúdo foi salvo de um jeito ruim. Um arquivo com nome genérico (“documento.pdf”) e sem metadados é praticamente invisível. Uma pasta com categorias vagas (“diversos”) joga tudo num buraco negro. Um documento sem data e sem status cria insegurança (“isso é válido?”). É por isso que a aula 6 conversa diretamente com as aulas 4 e 5: metadados e taxonomias não são “capricho”; eles são combustível para a recuperação funcionar.

Aqui entra um ponto que ajuda muito iniciantes: não confunda “buscar” com “navegar”. Navegar é ir por pastas e categorias. Buscar é digitar uma consulta. Quando a classificação está ruim, as pessoas tentam compensar com busca — e se frustram. Quando a busca é fraca, elas tentam compensar com pastas — e se perdem. O ideal é ter os dois: uma estrutura mínima que faça sentido e uma busca que consiga aproveitar metadados e descrições. Sistemas maduros normalmente combinam isso com filtros (data, tipo, status, autor), porque filtro é uma forma de “pergunta guiada” que reduz ambiguidade.

Outra ideia essencial é entender duas medidas clássicas de qualidade de busca, que parecem acadêmicas, mas são bem intuitivas. Precisão é: “dos resultados que vieram, quantos prestam?” Revocação (ou abrangência) é: “de tudo que existe sobre o tema, quanto eu consegui trazer?”. Às vezes você quer precisão

alta (poucos resultados, muito certeiros). Às vezes você quer revocação alta (não perder nada relevante, mesmo vindo ruído). Quem não entende isso sofre porque espera que toda busca entregue “poucos e perfeitos”. Nem sempre dá. Você ajusta estratégia conforme o objetivo: para auditoria e conformidade, revocação costuma ser crítica; para uso rápido em sala, precisão pode ser mais importante.

E por falar em objetivo: um erro comum é tratar toda busca como se fosse “Google”. Repositórios internos, Drive, sistemas acadêmicos, bases de dados e bibliotecas digitais têm lógicas diferentes. Alguns valorizam mais título, outros descrição, outros data, outros tags. Por isso, uma pergunta que melhora qualquer vida informacional é: “o que este sistema considera sinal de relevância?” Se o sistema só indexa título e nome do arquivo, então título e nome viram prioridade. Se indexa o texto inteiro, uma descrição bem escrita ajuda. Se indexa metadados, então metadados importam de verdade.

No final, o que esta aula quer te dar é um tipo de autonomia: você para de culpar “a busca que é ruim” e começa a enxergar o que está faltando para ela funcionar. Você aprende a buscar melhor, sim, mas também aprende a produzir informação de um jeito que será recuperável depois. E isso é o que mais separa iniciante de alguém competente: iniciante salva pensando só no presente; alguém competente salva pensando no futuro, na equipe e na pergunta “como isso vai ser encontrado quando eu não estiver aqui para explicar?”.

Se você quiser levar isso para um exercício rápido e honesto, faça assim: escolha um repositório real (pasta do Drive, Notion, sistema da escola/empresa) e tente responder cinco perguntas típicas (“qual é a avaliação aprovada do 9º ano do bimestre 2?”, “qual é o modelo oficial de relatório?”, etc.). Anote onde você travou e por quê. Em seguida, proponha cinco melhorias mínimas (nome, data, status, tags, descrição curta). Esse teste revela, sem discurso, se o seu sistema está desenhado para pessoas… ou para o caos.

Referências bibliográficas

  • BAEZA-YATES, Ricardo; RIBEIRO-NETO, Berthier. Recuperação de Informação: conceitos e tecnologia das máquinas de busca. 2. ed. Rio de Janeiro: LTC, 2013.
  • LANCASTER, F. W. Indexação e resumos: teoria e prática. Brasília: Briquet de Lemos, 1993.
  • MOREIRA, Viviane P. Recuperação de Informação. In: Processamento de Linguagem Natural (capítulo online). 2023.
  • LEIVA, Isidoro Gil. A política de indexação
  • para representação e recuperação da informação. In: livro acadêmico SciELO (capítulo).
  • (Autores diversos). Recuperação de informação na Ciência da Informação: panorama e relações com a Computação. Texto em PDF (SciELO).
  • (Autores diversos). Implicações da categorização e indexação na recuperação da informação tecnológica contida em documentos de patentes. Ciência da Informação (IBICT).

 

Estudo de caso do Módulo 2

 

“O Repositório Fantasma: quando tudo ‘está salvo’…, mas ninguém encontra nada”

A empresa Vértice Educação (poderia ser uma escola, uma clínica ou um escritório — o padrão é o mesmo) cresceu rápido. Em dois anos, dobrou o time, abriu novos projetos e virou uma fábrica de documentos: propostas, contratos, apresentações, planos, planilhas, versões de materiais, relatórios e comunicados.

No papel, parecia organizado: “tá tudo no Drive”.

Na prática, era um pesadelo.

Personagens

  • Nina (coordenação de projetos): vive tentando “organizar a casa”, mas apaga incêndio todo dia.
  • Bruno (criador de conteúdo): produz muito e salva “como dá”.
  • Marina (atendimento): precisa achar respostas rápido; quando não acha, inventa ou pergunta no WhatsApp.
  • Caio (TI): acha que a solução é trocar ferramenta.
  • Diretoria: só enxerga atraso e retrabalho.

A crise que expõe o problema

Nina recebe uma tarefa simples: “manda a versão aprovada do material X para o cliente, ainda hoje”.

Ela abre o Drive e encontra:

  • pasta “Materiais”
  • subpasta “Materiais novos”
  • subpasta “Materiais novos (2)”
  • subpasta “FINAL”
  • subpasta “Arquivados”
  • subpasta “Arquivados – não apagar”

Dentro, dezenas de arquivos:

  • Apostila_ClienteX.pdf
  • Apostila_ClienteX_FINAL.pdf
  • Apostila_ClienteX_final_agora_vai.pdf
  • Apostila_ClienteX_v2.pdf
  • Apostila_ClienteX_v2_corrigida.pdf
  • Apostila_ClienteX_v3-OK.pdf

Ela chama Bruno. Bruno jura que a correta é a v3-OK. Marina diz que já mandou a final_agora_vai ontem. O cliente responde: “vocês mudaram o conteúdo? Recebi duas versões diferentes”.

Nina perde uma hora comparando PDFs. E o pior: ninguém consegue provar qual era a versão aprovada, porque a aprovação aconteceu num áudio de WhatsApp.

A partir daí, a diretoria faz a pergunta que dói:

“Por que a gente trabalha tanto e ainda entrega errado?”

Resposta curta: porque o repositório não é um repositório. É um depósito.

Onde o Módulo 2 entra (e por que resolve)

Erro comum 1: salvar arquivo sem metadados mínimos

O

que acontecia: o arquivo tinha nome e só.
Consequência: ninguém sabia quem fez, quando, para quem, status, versão.

Como evitar (mínimo viável que funciona):
Todo item “publicável” precisa carregar no nome ou em campos do sistema:

  • Cliente/Projeto
  • Tipo de documento (proposta, apostila, avaliação, contrato…)
  • Tema
  • Data
  • Versão
  • Status (rascunho / revisão / aprovado)
  • Responsável

Exemplo de nome que evita guerra:
2026-03_ClienteX_Apostila_TemaY_APROVADO_v3_Nina.pdf

Regra cruel, mas verdadeira: arquivo sem status e versão é armadilha.

Erro comum 2: pastas com categorias vagas (“Diversos”, “Final”, “Novo”)

O que acontecia: cada pessoa criava pastas no impulso.
Consequência: o Drive virou um mapa mental privado de cada um.

Como evitar: taxonomia curta e estável
Nina decide que a árvore de pastas precisa ter no máximo 2 níveis no começo, com lógica previsível.

Exemplo (funciona em 80% dos casos):
1º nível: Projeto/Cliente
2º nível: Tipo de documento

Fica assim:

  • ClienteX/Propostas
  • ClienteX/Contratos
  • ClienteX/Materiais
  • ClienteX/Relatórios

Onde entra o “tema”, “bimestre”, “série”, “disciplina”?
Isso vira tag ou metadado. Não vira mais subpasta infinita.

Se você cria 6 níveis de pastas, você não criou organização. Você criou um labirinto.

Erro comum 3: tags livres sem regra (folksonomia sem freio)

O que acontecia: cada um tagueava do jeito que queria.
“prova”, “avaliação”, “teste”, “simulado”, “avaliacao”, “AVALIACAO”.

Consequência: a busca vira loteria.

Como evitar: folksonomia com regras simples
Nina define:

  • tags sempre no singular
  • sem tag subjetiva (“urgente”, “top”, “importante”)
  • lista curta de termos preferidos (ex.: sempre “avaliação”, nunca “prova”)
  • revisão mensal para fundir tags repetidas

Isso mantém flexibilidade sem virar bagunça.

Erro comum 4: acreditar que a busca vai compensar a bagunça

O que acontecia: “depois eu acho pelo search”.
Consequência: a busca devolve 50 resultados ou 0, e ninguém confia.

Como evitar: alimentar a busca
A busca só funciona bem quando:

  • o título do arquivo é informativo
  • existe metadado de assunto/tema
  • existe status e versão
  • existe data
  • existe consistência de termos

Nina cria um hábito: todo documento tem uma descrição curta no início (ou no campo “descrição” do sistema): 2–3 linhas dizendo para quem é, do que trata e qual é o uso.

Isso parece pequeno, mas muda o jogo, porque dá “texto bom” para a indexação.

Erro comum 5: “aprovação” sem

registro formal (o WhatsApp como sistema)

O que acontecia: decisões em áudio e mensagem.
Consequência: não existe prova, não existe versão oficial, só memória e briga.

Como evitar: trilha de versionamento
Regra de ouro:

  • só existe “aprovado” se estiver marcado como APROVADO no documento + no repositório
  • aprovação registrada num lugar único (ex.: planilha/board “Controle de Publicação”)

Campos mínimos desse controle:

  • Documento
  • Link
  • Versão
  • Status
  • Quem aprovou
  • Data

Sem isso, sua organização não é organização — é esperança.

O plano de correção (sem trocar ferramenta e sem fantasia)

Nina veta a ideia de Caio (“vamos migrar tudo para uma plataforma nova”). Ela crava:

“Ferramenta não conserta falta de padrão. Só muda o endereço do caos.”

E aplica um plano em 7 dias:

Dia 1 — Definir o “mínimo obrigatório”

  • padrão de nome
  • status e versionamento
  • taxonomia de pastas (2 níveis)
  • lista de tags preferidas (curta)

Dia 2 — Criar um “lugar oficial”

  • uma pasta PUBLICADOS por cliente/projeto
  • só entra ali o que está aprovado

Dia 3 — Limpeza por impacto

  • não tenta arrumar tudo
  • arruma o que é mais usado e mais arriscado (materiais enviados para clientes/alunos)

Dia 4 — Treino rápido (30 min, na prática)

  • 10 exemplos reais
  • como nomear, onde salvar, como marcar status

Dias 5–7 — Auditoria leve

  • Nina revisa 10 itens por dia
  • aponta erro, corrige e reforça padrão

Resultado (duas semanas depois)

  • Marina para de perguntar no WhatsApp “alguém tem o arquivo?”
  • Bruno para de salvar “final_final”
  • Nina consegue responder rápido “qual é o aprovado” porque existe “aprovado”
  • A diretoria vê queda de retrabalho e menos erro de envio

E o mais importante: o repositório deixa de ser “depósito” e vira sistema de recuperação.

Checklist do módulo 2

Se você quer uma regra simples e brutalmente eficaz, use isto:

1.     Se não tem versão + status, não é oficial.

2.     Se precisa de 5 subpastas para achar, sua taxonomia está errada.

3.     Se cada pessoa nomeia diferente, ninguém encontra.

4.     WhatsApp não é repositório: é aviso.

5.     Busca boa depende de metadado bom.

Parte superior do formulário

Parte inferior do formulário

Quer acesso gratuito a mais materiais como este?

Acesse materiais, apostilas e vídeos em mais de 3000 cursos, tudo isso gratuitamente!

Matricule-se Agora