Questões sobre qualidade em análise de dados

http://www.eduardosan.com/wp-content/uploads/2018/11/Data_Science_storytelling.jpghttp://www.eduardosan.com/wp-content/uploads/2018/11/Data_Science_storytelling.jpgQuestões sobre qualidade em análise de dados

Há alguns dias abordei a profissão de cientista de dados, que parece estar no coração de 10/10 empresas em 2018, entrando ainda mais forte no ano de 2019. O objetivo era tentar entender um pouco melhor do que se trata a carreira e seus maiores paradigmas, dando uma orientação inicial para quem pretende seguir na profissão. Hoje vamos discutir um pouco o tipo de análise que tem sido produzida com dados. Será que podemos confiar nas informações que são supostamente embasada por números?

Qualidade

Para saber se uma análise tem qualidade precisamos primeiro definir o que é qualidade. Um trabalho bem interessante feito recentemente por pesquisadores da NYU tenta justamente levantar essa questão: o que é qualidade em análise de dados, no caso, com foco em dados empíricos [1]? Os autores defendem um termo trazido no artigo como data continuum, considerando fatores intrínsecos e extrínsecos nas várias etapas de processamento de dados. Fatores intrínsecos são aqueles que dependem da aplicação, como a consistência de um campo do tipo DateTime. As características extrínsecas estão mais relacionadas ao contexto onde os dados foram produzidos, como a fidelidade de um relatório analítico consultado.

Infográfico apresentando fatores de processamento de dados

Figura 1: Pipeline típico de processamento de dados

 

Sem querer entrar muito em detalhes do artigo, o ponto principal é entender que, principalmente quando falamos de análise de dados, existe uma longa esteira de tratamento que começa na fonte original e termina na camada de interpretação, onde os dados serão de fato consumidos. Há ainda que se levar em consideração o tipo de análise: trata-se de uma solução genérica para uma classe de problemas (Generic) ou uma proposta de solução para um problema específico (Tailored). Para cada combinação dessas características existe uma combinação de fatores, que representam os quadrantes apresentados na Figura 1.

Em última análise, os fatores de qualidade têm o objetivo de responder à seguinte pergunta: estamos respondendo à pergunta realizada com acurácia? Podemos citar como relevantes também as questões de eficácia e eficiência, mas no caso da análise o importante é que ela seja precisa, ou informe o nível de certeza fornecido em suas conclusões. Trazendo de volta o exemplo da antropóloga que estuda a classe C, enquanto ela consegue levantar uma lista de fatores que fazem a população roubar energia, uma análise de dados deveria trazer o impacto de cada um na decisão. Por essa razão normalmente temos como objetivo construir uma classe de ferramentas oriunda da disciplina de Sistemas de Informação chamada de Ferramentas de Suporte à Tomada de Decisão ou Sistemas de Apoio à Decisão (SAD).

Confiabilidade da análise

Um outro aspecto de qualidade muito importante, mas que não está relacionado à acurácia da análise, depende muito mais dos fatores extrínsecos [1] do que da qualidade dos dados em si: podemos confiar nessa análise? Um questão que me sinto à vontade para abordar é o problema das ocorrências policiais que abordei na minha Dissertação de Mestrado com mais detalhes. O governo brasileiro utiliza o número de ocorrências policiais como indicador oficial de segurança pública, que gera o o Anuário Brasileiro de Segurança Pública, contendo várias análises sobre os dados por região e tipo de crime todos os anos.

Fazendo um recorte bem simples por estado e somente considerando crimes violentos, é possível afirmar que SP é o estado mais seguro da federação. Na verdade, para ser preciso, podemos afirmar que a chance de você ter uma morte violenta em SP é menor do que em todos os outros estados do Brasil, mais de 50% menor do que o segundo colocado. Bom, se você é morador de São Paulo e está lendo esse texto, eu lhe pergunto: você se sente seguro? Você acha que sua chance de morrer de forma violenta é menor que em Santa Catarina ou no Distrito Federal, por exemplo? Os dados dizem que sim.

Esse exemplo mostra que o problema não está na análise, e sim na visão que temos da análise de dados que fazemos. Por essa razão é muito importante fazer a pergunta certa pra poder confiar no resultado. Outro exemplo: o Brasil está em Guerra Civil? Não? Os dados podem dizer que sim. E agora? O problema novamente está nos dados? Existe uma parte de conhecimento do Mercado e do negócio que é inerente a qualquer análise, e isso não será respondido friamente pelos dados.

Origem dos dados

Existe ainda uma questão que não é relacionada à pergunta, não tem como origem a má qualidade da análise, mas que é muito mais difícil de responder. Responda de supetão: os negros têm mais chance de ser criminosos que os brancos? Se você respondeu sim, você é só racista, sinto lhe informar. Para tentar explicar o problema vou trazer um exemplo que é muito grave, mas que teoricamente é baseado numa análise realizada com correção e metodologia científica. Trata-se de uma ferramenta chamada Compas, que é utilizada no sistema prisional americano para determinar qual a probabilidade do preso ser reincidente, dando uma nota de 0 a 10. Assim, se o preso tiver mais chance de ser reincidente, sua fiança será mais cara, em comparação a um preso que tem menos chance de ser reincidente.

Até aí nenhum problema, uma vez que uma análise computacional, se metodologicamente testada e aprovada, vai trazer um número correto. O grande problema é que a ferramenta sempre dá maior probabilidade de reincidência para negros do que brancos [2]. Aí a questão passa a ser não o olho do pesquisador ou a qualidade dos dados, e sim a sociedade quebrada que deu origem a uma massa de dados onde os negros são historicamente mais perseguidos que os brancos. Se a sociedade sempre for racista, os dados que alimentam o algoritmo tratam de uma sociedade racista, logo o produto da análise também vai ser racista [3]. Assim, a ferramenta que deveria remover o viés de autoridades que julgavam com base em critérios subjetivos serve para reforçar um comportamento social equivocado, porque se sempre formos assim vamos continuar sendo assim. As sociedades evoluem, mas os dados históricos não. Se você não acredita, acesse o github do Projeto e veja como refutaram as notas dadas pelo sistema.

Problema do viés

Quem acompanha eleição nas redes sociais já sabe claramente como funcionam as plataformas: pessoas de direita recebem sugestões de conteúdo de direita, pessoas de esquerda recebem sugestões de conteúdo de esquerda. Se você ouve um tipo de música o seu player preferido te sugere o mesmo tipo de música, e isso nem sempre é o que você quer ouvir, ou muito menos ler. O grande problema dos algoritmos preditivos é que eles enxergam o futuro com base no passado, e não são capazes de enxergar sua necessidade de mudança. Tipo: não é porque eu gosto de bolo que você vai me enfiar bolo toda vez que eu for te visitar na sua casa.

É óbvio que estou sendo simplista e existem formas de tratar ou mitigar o problema (antes que o pessoal de IA entre de voadora), mas o ponto que quero reforçar é de novo a necessidade de entender o contexto e o negócio. Com o mesmo dado podem ser geradas diferentes análises, que por sua vez podem causar diferentes conclusões, e somente com espírito crítico poderemos entender e enxergar o valor (olha ele aí de novo) para nossos clientes. Se você ainda não entendeu, o Marco Gomes tem uma abordagem mais, digamos, agressiva que eu para explicar alguns erros comuns ao lidar com dados.

Para finalizar, reforço de novo a importância da Metodologia Científica. Um cientista de dados (grifo proposital na palavra cientista novamente) deve ser capaz de questionar todo o seu trabalho o tempo inteiro, desde a fonte dos dados até os relatórios produzidos. Deve ainda ter o desprendimento para abandonar uma posição consolidada quando perceber que o cenário mudou e, principalmente, saber receber críticas sobre os seus trabalhos. Na ciência não existe verdade absoluta, e mesmo uma verdade computacional pode mudar ao ser colocada sob uma nova ótica.

 

[1] Sadiq, Shazia & Srivastava, Divesh & Dasu, Tamraparni & Dong, Xin & Freire, Juliana & F. Ilyas, Ihab & Link, Sebastian & J. Miller, Miller & Naumann, Felix & Zhou, Xiaofang. (2018). Data Quality: The Role of Empiricism. ACM SIGMOD Record. 46. 35-43. 10.1145/3186549.3186559. URL: https://doi.acm.org/10.1145/3186549.3186559

[2]  URL: https://www.bbc.com/portuguese/brasil-37677421

[3]  URL: https://www.propublica.org/article/how-we-analyzed-the-compas-recidivism-algorithm

Se você gostou desse post, deixe um comentário ou inscreva-se no feed RSS para ter todas os posts enviados para o seu agregador preferido.

Author Description

Eduardo Santos

Mestre em Computação Aplicada pela Universidade de Brasília (UnB), Tecnologista na Agência Espacial Brasileira, professor do Uniceub e cientista de dados (data scientist).

There are 1 comments. Add yours

  1. Pingback: Eduardo F. Santos - Questões sobre qualidade em análise de dados 30 de November de 2018

    […] By Eduardo Santos […]

Leave a Reply

Twitter

Subscribe to Blog via Email

Enter your email address to subscribe to this blog and receive notifications of new posts by email.

Join 12 other subscribers

Alguns direitos reservados

Licença Creative Commons
Este trabalho está licenciado com uma Licença Creative Commons - Atribuição-NãoComercial 4.0 Internacional.