Este projeto surge de uma parceria entre a Extensão Cidades Inteligentes, criada por professores do Instituto de Matemática (IM) da Universidade Federal do Rio de Janeiro (UFRJ), e membros da Prefeitura do Rio de Janeiro, com o objetivo de resolver um problema de otimização de banco de dados decorrente de dificuldades na realização do Censo da População de Rua do Rio de Janeiro no ano de 2020.
O trabalho consistiu no desenvolvimento de uma metodologia científica para imputação de dados ausentes que fosse mais eficiente do que estratégias comumente utilizadas, como exclusões e o uso de estatísticas simples de centralidade, visando otimizar adequadamente o banco de dados para a equipe de estatística, que realizaria estudos e análises sobre o tema. Baseando-se na literatura elaborada por Roderick A. Little e Donald B. Rubin, que trata dos padrões de ausência de dados e dos mecanismos que geram essa ausência (MCAR, MAR, NMAR), foi desenvolvida uma abordagem metodológica passo a passo para imputação, iniciando pelas possibilidades de imputação geradas na análise exploratória de dados (EDA), passando por técnicas de imputação mais elaboradas, como o bootstrapping, e finalizando com técnicas de Machine Learning.