shadow

Literacia de dados: como identificar e estruturar dados

cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br

[ad_1]

Conhecer e estruturar corretamente seus dados é importante se você deseja se familiarizar com a análise de dados avançada.

Os dados estão entre os ativos essenciais das empresas hoje. É um meio de informar decisões, medir desempenho, obter insights e agregar valor. Porém, dados não preparados e validados adequadamente podem levar a resultados enganosos.

Hoje, os dados vêm em muito mais formas e tamanhos, e está se tornando mais comum lidar com dados não estruturados e também com dados estruturados. Esta tendência deve continuar, e se você ainda não a viu se infiltrar em seu mundo, é quase certo que ocorrerá nos próximos anos. Esta citação de Christie Schneider, Maio de 2016, a IBM resume:

“Houve uma mudança de paradigma no crescimento dos dados. Da maior parte estruturada, e não muito disso, à maior parte não estruturada, e muito disso. As empresas usam dados estruturados todos os dias por meio de bancos de dados relacionais e planilhas, onde os padrões podem ser facilmente identificados.

No entanto, os dados não estruturados, que vêm na forma de e-mails, mídias sociais, blogs, documentos, imagens e vídeos, representam uma fonte significativa de oportunidade para as empresas. Devido à sua natureza não estruturada, é difícil para as pessoas obter uma visão dele usando os sistemas convencionais. E como muitos dos dados criados hoje não são estruturados, as organizações precisam ser capazes de entender o que há nesses dados, ou correr o risco de perder quantidades significativas de inteligência digital. ”

Dependendo da fonte e do pesquisador; estima-se que os dados não estruturados representem algo entre 80-90% de todos os dados. Isso é big data!

Tem havido um crescimento significativo na prática de visualização de dados em análises. Os dados precisam ser preparados para permitir visualizações e análises informativas e confiáveis. Ao começar a responder a uma pergunta de negócios por meio da análise de dados, o conjunto de dados geralmente precisa ser preparado primeiro.

Tipos de dados

Os tipos de dados precisam ser compreendidos para que, ao prepararmos os dados, garantamos que definimos os atributos corretamente para que possamos dividir os dados e realizar cálculos.

Quando você está importando, exportando ou preparando um banco de dados, você pensa o suficiente nos tipos de dados? Certamente vale a pena acertar, especialmente na fase de preparação

  • Booleano – verdadeiro ou falso, 1 ou 0
  • Float – Números com ou sem casas decimais
  • Inteiro – números inteiros positivos ou negativos, sem casas decimais
  • String – texto alfanumérico
  • Character – uma única letra, número ou símbolo
  • Encontro

Estruturação de dados

Os dados podem chegar em um formato estruturado ou não estruturado. Os dados estruturados são formatados em colunas e linhas. Você estará familiarizado com essa estrutura, pois é a usada no Excel. Por exemplo, se você vir dados nas linhas de um a N e nas colunas de A a N. Os dados não estruturados não estão formatados; um exemplo pode ser um arquivo de texto ou um CSV. Você precisa preparar os dados dizendo ao software como deseja que os dados sejam separados antes de usá-los para relatórios e análises.

Aqui está uma dica: uma boa disciplina é sempre estruturar seus dados em colunas e linhas, com cada coluna tendo um cabeçalho e cada linha sendo uma transação única (por exemplo, uma fatura) ou parte da transação (um item de linha de uma fatura) com um identificador único (ID da transação, número da fatura, etc.). Se seu banco de dados usa várias tabelas separadas para dados de transação, vincule-as pelo identificador exclusivo; dessa forma, você pode juntar todas as tabelas individuais com base no identificador.

Leia Também  Pagar prêmios de seguro de saúde em prestações
cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br

Mantenha a estrutura dos dados o mais próxima possível de como eles exportam do sistema de origem. Idealmente, você está exportando os dados por meio de uma API diretamente para um banco de dados. A razão para isso é que você não está corrigindo os dados de origem, portanto, eles mantêm sua integridade. Você pode criar seus campos calculados no banco de dados SQL ou (menos preferencialmente) no Excel. De qualquer maneira, você está reduzindo a cópia e colagem manual de dados em uma ferramenta como o Excel, onde pode editá-los. Assim que isso acontece, as inconsistências começam a aparecer.

Comece a pensar como um engenheiro de banco de dados. Você descobrirá que seus bancos de dados se tornam mais consistentes em sua estrutura e mais utilizáveis ​​para análises, com menos erros aparecendo no final.


DEEP DIVE AO VIVO: COMO VOCÊ TORNA O RELATÓRIO DO ‘MELHOR DA CLASSE’ EM REALIDADE?

Se você está procurando melhorar sua capacidade e saída de relatórios, esta sessão é para você.

Quinta-feira, 22 de outubro, 14h BST


Problemas comuns com dados

Ao preparar dados para análise, relatório ou tomada de decisão ad hoc, é essencial estar ciente das áreas comuns onde os dados podem causar erros ou resultados enganosos. Aqui estão alguns dos principais problemas que você pode encontrar:

Valores nulos

ou seja, células ou campos que não contêm dados podem afetar os cálculos. Procure por valores nulos quando no processo de limpeza de dados, determine se eles têm um impacto. Por exemplo, você executará uma contagem de campos de dados em uma coluna com nulos? Como você gostaria que sua visualização os mostrasse?

Leia Também  EQUIPE TRANSCEND PASSA UM DIA NA COMUNIDADE COM ACORNS HOSPICE

Valores inconsistentes

Datas em um formato diferente, como formato de data do Reino Unido e formato de data dos EUA na mesma coluna. Depois de importar dados para o Excel ou ferramentas de BI, como Tableau ou PowerBi, verifique o formato de data esperado.

Esquema

A forma do conjunto de dados – as colunas, nomes das colunas e sua ordem. Novos dados podem ter novas colunas. Se você colar os dados existentes, isso pode causar erros nas fórmulas. Excluir colunas e linhas após a importação altera o esquema.

Relevância dos dados

O que você está trazendo é relevante? Se houver colunas que não fornecem valor, exclua-as.

Tamanho dos dados

Muitas colunas podem causar problemas de desempenho na visualização de dados. Filtre o que você não precisa.

Outliers

Outliers são extremos em pontos de dados. Você pode identificá-los rapidamente usando gráficos de distribuição ou uma ferramenta de preparação de dados.

Erros

Na etapa de entrada de dados, é possível que ocorram erros, sejam erros humanos ou de fórmula. Por exemplo, em uma coluna contendo a idade das pessoas, uma idade acima de 100 ou abaixo de 0 indicaria erros no conjunto de dados.

Outros fatores a serem considerados:

  • Personagens principais e finais
  • Espaços
  • Alimentações de linha
  • Devoluções de carro
  • Formatos de arquivo Unix / Windows
  • Unicode: UTF8 vs ANSI
  • Vírgulas e pontos decimais – a UE usa vírgulas, o Reino Unido usa pontos decimais
  • Símbolos de moeda
  • Arquivos CSV – o delimitador padrão do Reino Unido é uma vírgula, mas na Alemanha é dois pontos
  • Arquivos delimitados – se vírgulas no endereço, isso pode ser tratado incorretamente como um delimitador
  • Erros de transposição – verifique dividindo por 9

Pesquise no Google por erros comuns em arquivos de texto para saber mais.


Autoria de Sam Ellis.

Sam Ellis é especialista em análise de dados e contador de empresas na Interworks.



[ad_2]

cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *