Já que discutimos o que é ciência de dados, devemos também gastar um tempo examinando exatamente o que são dados.
Definições de “Dados”
Primeiro, vamos ver como algumas fontes confiáveis definem dados.
Primeiro, vamos olhar o Cambridge English Dictionary, que afirma que dados são:
Informação, especialmente fatos ou números, coletados para serem examinados e considerados e usados para ajudar na tomada de decisão.
Em segundo lugar, veremos a definição fornecida pela Wikipedia, que é:
Um conjunto de valores de variáveis qualitativas ou quantitativas.
Essas são definições ligeiramente diferentes que abordam diferentes componentes do que são dados. Ambas concordam que dados são valores ou números ou fatos, mas a definição de Cambridge foca nas ações que envolvem os dados – dados são coletados, examinados e, mais importante, usados para tomar decisões. Nós nos concentramos nesse aspecto. A parte mais importante da ciência de dados é a pergunta e como tudo o que fazemos é usar dados para responder à pergunta. A definição de Cambridge foca nisso.
A definição da Wikipedia foca mais no que os dados implicam. E embora seja uma definição relativamente curta, vamos dedicar um momento para analisá-la e focar em cada componente individualmente.
Então, a primeira coisa a focar é “um conjunto de valores” – para ter dados, você precisa de um conjunto de itens para medir. Em estatística, esse conjunto de itens é frequentemente chamado de população. O conjunto como um todo é o que local onde você está tentando descobrir algo. Por exemplo, esse conjunto de itens necessário para responder à sua pergunta pode ser todos os sites ou pode ser o conjunto de todas as pessoas que visitam sites, ou pode ser um conjunto de todas as pessoas que estão recebendo um determinado medicamento. Mas, em geral, é um conjunto de coisas nas quais você vai fazer medições.
A próxima coisa a focar são “variáveis” – variáveis são medições ou características de um item. Por exemplo, você pode estar medindo a altura de uma pessoa, ou você está medindo o tempo que uma pessoa fica em um site. Por outro lado, pode ser uma característica mais qualitativa que você está tentando medir, como em que um pessoa clica em um site, ou se você acha que a pessoa que está visitando é homem ou mulher.
Finalmente, temos tanto variáveis qualitativas quanto quantitativas. Variáveis qualitativas são, surpreendentemente, informações sobre qualidades. Elas são coisas como país de origem, sexo ou grupo de tratamento. Elas geralmente são descritas por palavras, não números, e não são necessariamente ordenadas. Variáveis quantitativas, por outro lado, são informações sobre quantidades. As medições quantitativas geralmente são descritas por números e são medidas em uma escala contínua e ordenada; são coisas como altura, peso e pressão arterial.
Um Resumo dos Conceitos Presentes na Definição da Wikipedia de Dados
Então, levando em consideração toda essa definição, temos medições (sejam qualitativas ou quantitativas) em um conjunto de itens que compõem os dados – não é uma definição ruim.
Como os Dados Podem Parecer?
Quando estávamos examinando as definições, nossos exemplos de variáveis e medições (país de origem, sexo, altura, peso) são exemplos bastante básicos; você pode facilmente imaginá-los em uma planilha bem organizada, com indivíduos ao longo de um lado da tabela e as informações dessas variáveis ao longo do outro lado.
Um Exemplo de um Conjunto de Dados Estruturado – Uma Planilha de Indivíduos (Primeira Inicial, Sobrenome) e Seus Países de Origem, Sexo, Altura e Peso
Infelizmente, raramente é assim que os dados são apresentados para você. Os conjuntos de dados que encontramos comumente são muito mais bagunçados, e é nosso trabalho é extrair as informações que queremos, organizá-las em algo arrumado como a tabela imaginada acima, analisá-las adequadamente e, muitas vezes, visualizar nossos resultados.
Tipos Mais Comuns de Dados Desorganizados
Aqui estão apenas algumas das fontes de dados que você pode encontrar e vamos examinar brevemente como alguns desses conjuntos de dados geralmente se parecem ou como podem ser interpretados, mas uma coisa que eles têm em comum é a bagunça dos dados – você tem que trabalhar para extrair as informações de que precisa para responder à sua pergunta.
- Dados de Sequenciamento
- Dados de Censo Populacional
- Registros Médicos Eletrônicos
- Dados de Sistemas de Informação Geográfica (GIS) (mapeamento)
- Análise de Imagens e Extrapolação de Imagens
- Linguagem e Traduções
- Tráfego de Websites
- Dados Pessoais/Publicitários (ex.: Facebook, previsões da Netflix, etc.)
Dados Desorganizados: Sequenciamento
Um tipo de dado com o qual trabalho regularmente são os dados de sequenciamento. Esses dados geralmente são encontrados pela primeira vez no formato FASTQ, o formato de arquivo bruto produzido por máquinas de sequenciamento. Esses arquivos frequentemente têm centenas de milhões de linhas, e é nosso trabalho analisar isso em um formato compreensível e interpretável e inferir algo sobre o genoma desse indivíduo. Neste caso, esses dados foram interpretados como dados de expressão e produziram um gráfico chamado “gráfico de vulcão”.
Dados Desorganizados: Informações do Censo
Uma fonte rica de informações são os censos nacionais. Nesses censos, quase todos os membros de um país respondem a um conjunto de perguntas padronizadas e enviam essas respostas ao governo. Quando você tem tantos respondentes, os dados são grandes e desorganizados; mas uma vez que esse grande banco de dados está pronto para ser consultado, as respostas embutidas são importantes. Aqui temos um resultado muito básico do último censo dos EUA – em que todos os respondentes são divididos por sexo e idade, e essa distribuição é plotada neste gráfico de pirâmide populacional.
Dados Desorganizados: Registros Médicos Eletrônicos (EMR)
Registros médicos eletrônicos são cada vez mais prevalentes como uma maneira de armazenar informações de saúde, e mais e mais estudos populacionais estão usando esses dados para responder perguntas e fazer inferências sobre populações em geral, ou como um método para identificar maneiras de melhorar o atendimento médico. Por exemplo, se você está perguntando sobre alergias comuns em uma população, você terá que extrair informações de alergia de muitos indivíduos e colocar isso em um formato de tabela facilmente interpretável, onde você então realizará sua análise.
Dados Desorganizados: Análise/Extrapolação de Imagens
Uma fonte de dados mais complexa de analisar são imagens/vídeos. Há uma riqueza de informações codificadas em uma imagem ou vídeo, e está apenas esperando para ser extraída. Um exemplo de análise de imagem que você pode estar familiarizado é quando você faz upload de uma foto no Facebook e não só ele reconhece automaticamente os rostos na foto, mas também sugere quem eles podem ser. Um exemplo divertido com o qual você pode brincar é o software DeepDream, que foi originalmente projetado para detectar rostos em uma imagem, mas desde então passou para buscas mais artísticas.
Há outra iniciativa divertida do Google envolvendo análise de imagens, onde você ajuda a fornecer dados, desenhando, para o algoritmo de aprendizado de máquina do Google.
Os Dados São de Importância Secundária
Reconhecendo que passamos muito tempo discutindo o que são dados, precisamos reiterar – dados são importantes, mas são secundários à sua pergunta. Um bom cientista de dados faz perguntas primeiro e busca dados relevantes em segundo lugar.
Admitidamente, muitas vezes os dados disponíveis limitarão ou talvez até impossibilitarão certas perguntas que você está tentando fazer. Nesses casos, você pode ter que reformular sua pergunta ou responder a uma pergunta relacionada, mas os dados em si não conduzem a formulação das perguntas.
Resumo
Nesta artigo, focamos nos dados – tanto em defini-los quanto em explorar como os dados podem ser e como podem ser usados.
Primeiro, vimos duas definições de dados, uma que foca nas ações ao redor dos dados e outra no que compõe os dados. A segunda definição embute os conceitos de populações, variáveis e examina as diferenças entre dados quantitativos e qualitativos.
Em segundo lugar, examinamos diferentes fontes de dados que você pode encontrar e enfatizamos a falta de conjuntos de dados organizados. Exemplos de conjuntos de dados desorganizados, onde os dados brutos precisam ser organizados em uma forma interpretável, podem incluir dados de sequenciamento, dados de censo, registros médicos eletrônicos, etc. E, finalmente, retornamos às nossas crenças sobre a relação entre dados e à pergunta e enfatizamos a importância de estratégias focadas na pergunta. Você pode ter todos os dados que poderia desejar, mas se você não tiver uma pergunta para começar, os dados são inúteis.