Noções básicas de limpeza de dados de limpeza Shawn Deny

dados ou limpeza é thecorrection de dados que não estão em conformidade com o formato do conjunto do conjunto orrecord banco de dados, que também é conhecido como a sujeira ou dados grosseiras. Isso pode ser feito byeither exclusão de dados incorretos (ou uma limpeza rigorosa), ou modificando incorrectentries que coincide com entradas corretas (ou uma limpeza distorcido). Desta forma, thehomogeneity de registros no banco de dados é mantido, e os erros feitos whileprocessing os dados são minimizados. A limpeza de dados é diferente do datavalidation, que também é um método de (geralmente) rejeitando as entradas incorrectas, mas ocorre principalmente na altura da entrada de dados. A limpeza é executada em um banco de dados existente entriesin.

limpeza é normalmente feito byremoving erros tipográficos, ou validar contra registros corretos. Forexample, um número de telefone pode não conter todas as letras, e se uma entrada por umCliente em um formulário on-line não contém o código de área, em seguida, o código pode beadded se a localização do cliente é conhecido. Da mesma forma, os registros relevantes talvez anexas juntos, como números de telefone e endereços, ou rollnumbers universitários com nomes de departamentos e grupos de ano.

dados grosseiros em um company'sdatabase, como incorreto endereços de email ou números de telefone, pode revelar-bedetrimental para o desempenho da empresa, uma vez que pode resultar em ordens incorrectlyplaced, enviar e-mails para as pessoas erradas, não conseguirem contactar umCliente, e vários problemas de inventário, como ordena a quantityfrom errado fábrica ou calcular mal contracheques dos empregados. Da mesma forma, em bases de dados nationalcitizenship, dados incorretos podem resultar em inquéritos imprecisas, whichwill levar a políticas econômicas falhas no que diz respeito aos cuidados de saúde, educação andinfrastructure .

Enquanto a limpeza de dados, parâmetros thefollowing são analisadas: .

· Validade, que é o grau em que os datafollows as regras do banco de dados, tais como comprimento, do tipo de dados, e expressionpatterns

· precisão e abrangência. Dados precisos deve Beas perto do valor "true". Enquanto 100% exato difícil de obter, ele canbe feito por referência cruzada, como o uso de códigos de barras e namestogether produto para verificar o preço .

· consistência e uniformidade, que verifica se thesame dados são representados da mesma maneira em bancos de dados diferentes. Forexample, se a unidade de peso é definido como quilos, então não deve ser libras inanother ligados banco de dados.

Claro, existem severalproblems com a tentativa de corrigir todos os dados, o mais comum dos quais IsThe remoção de dados e a perda de informação. Por exemplo, numa tentativa para fitaddresses em um formato definido, todos os detalhes que teria sido provado ser morehelpful são excisados, resultando em um cliente difíceis de localizar. Software de limpeza de dados de boa qualidade, como a que fromDataTools, deve levar em conta que detalhes importantes nos dados são notremoved por causa de processamento rápido e eficaz .