Como se tornar um cientista de dados

http://www.eduardosan.com/wp-content/uploads/2018/11/1024px-infográfico_INTELLIGENCE_FUNNEL_-_Transformação_de_dados_em_inteligência.pngComo se tornar um cientista de dados

A palavra Big Data tem se tornado a menina dos olhos de quase todas as corporações, públicas e privadas, e inteligência artificial é enxergada como solução para quase todos os problemas. Vendas em baixa? Inteligência artificial para trazer o consumidor de volta. Produtividade não está boa? Análise de dados para encontrar os problemas. O campo está crescendo tanto e tão rápido que existe uma sensação no público em geral que há um profissional mágico, denominado no Mercado como cientista de dados, que é capaz de resolver qualquer problema. Mas será que é isso mesmo? Existe o famoso profissional de dados para qualquer tipo de dado? Ou estamos em busca de algo que simplesmente não existe?

O que é análise de dados?

Especialmente após a eleição de Trump nos EUA e Bolsonaro no Brasil, o tema da privacidade e a importância dos dados pessoais que sempre abordei por aqui ganharam visibilidade principalmente na mídia tradicional. Na Academia o assunto já é antigo, e trabalhos do ano de 2014 já apontavam questões relativas aos dados oriundos de redes sociais e seu papel na onda de protestos de 2013 [1], mas esse tema fica para outro dia. Um ponto de partida interessante para encontrar as origens do termo análise de dados é a Wikipedia, que traz algumas fontes bastante confiáveis de artigos que remontam à década de 60. Talvez a forma mais simples de enxergar o tema seja derivar diretamente da estatística, onde pode ser resumida a uma série de “procedimentos para analisar os dados, técnicas para interpretar os resultados obtidos através de tais procedimentos, formas de coletar os dados para tornar a análise mais fácil, mais precisa e mais correta, além de todo o ferramental matemático e estatístico aplicado para analisar os dados”.

Da definição coletada na Wikipedia podemos ver que não se trata apenas de observar os dados e realizar inferências após a coleta, mas também de planejar e medir cada etapa do processo. Tal definição também é apresentada na disciplina de mineração de dados, citando o processo como “encontrar padrões em dados” [2]. Embora a disciplina de mineração seja mais antiga, o termo análise ganhou mais força principalmente com a introdução de elementos preditivos, no sentido de descobrir comportamentos futuros. Assim, embora sejam disciplinas similares, possuem destaque diferente na academia.

O cientista de dados

O profissional de análise de dados seria o que conhecemos hoje como cientista de dados. As definições são ainda muito dispersas, mas recentemente a NYU criou um curso de Mestrado em Ciência de Dados (agora também iniciando um douturado) que talvez possa ajudar a sintetizar um pouco melhor a carreira em ciência de dados. Algumas das competências repassados aos profissionais de Mestrado em Ciência de Dados:

  • Probabilidade e estatística;
  • Machine Learning;
  • Big Data;
  • Deep Learning;
  • Processamento de Linguagem Natural (NLP);
  • Visão Computacional;
  • Física Teórica;
  • Informática Biomédica;

Aqui a coisa começa a ficar um pouco mais polêmica: pela lista de disciplinas elencadas, podemos ver que é praticamente impossível um profissional dominar todas essas áreas. Alguém que se especialize em informática biomédica, por exemplo, provavelmente não vai conseguir também se dedicar à Física Teórica. Isso quer dizer que não existe um profissional com formação completa, mas sim alguém com especialização em algum dos temas mencionados. Então, caso a sua empresa ou organização esteja precisando de um profissional de ciência de dados e for da área de mídia, por exemplo, provavelmente não será tão útil assim um profissional da área de biomedicina.

O ponto principal, contudo, está mais relacionado à primeira palavra da profissão, que muitas vezes passa desapercebida pela maioria das pessoas: ciência. A maior parte das Universidades brasileiras, independente do curso, têm como objetivo formar um Bacharel, o que não é suficiente para ser chamado de cientista. Os cursos de graduação vão exigir, em sua maioria, um Trabalho de Conclusão de Curso (o popular TCC) ou um Projeto Final, que é o começo, mas não fornece subsídios em metodologia científica suficientes para a elaboração de um artefato completo. Fechando o escopo em Ciência da Computação, minha área, são aceitos em Graduação o que chamamos de Caso de Uso, ou aplicação de uma solução computacional para um problema real [3]. Numa análise mais profunda, isso não é ciência, pois não produz conhecimento novo.

Isso significa que o profissional de ciência de dados, para ser chamado de cientista (grifo forçado aqui), precisa necessariamente seguir para a pós-graduação, de preferência um Mestrado, onde apesar de ainda não produzir conhecimento novo, pelo menos vai ser introduzido à Metodologia Científica, tão necessária para uma boa análise de dados. Em suma, a profissão requer um nível de estudo acadêmico que até então não era tão valorizado pelo Mercado, pelo menos no Brasil. Por outro lado, é muito importante ter uma visão próxima do problema em questão para realizar uma análise adequada, pois o conhecimento da área do problema vai incentivar o profissional a fazer as perguntas certas e, por consequência, entregar resultados relevantes para o cliente.

Entendimento do negócio

Até o momento estamos discutindo a formação acadêmica e a importância do pensamento científico, mas essa nem de longe é a característica mais importante para saber lidar com dados em um ambiente de negócios. Sempre cito para os meus alunos a questão da “computação pela computação”, pois só conhecer os algoritmos, ferramentas e metodologias não vai necessariamente entregar uma análise relevante do problema. Da mesma forma que num trabalho científico precisamos encontrar de início a pergunta de pesquisa, no começo da análise é muito importante entender qual é o contexto de negócio que se pretende atacar.

Curiosamente a forma da questão negocial será muito parecida com uma pergunta de pesquisa. Como exemplo podemos citar um trabalho realizado por uma antropóloga ao tentar responder à seguinte questão: por que os consumidores realizam ligações ilegais de energia, os famosos gatos? A principal diferença entre o trabalho realizado por uma antropóloga social (o caso citado) e um cientista de dados não está na pergunta, e sim no método: enquanto ela realiza um trabalho de imersão, fazendo suas observações e tirando suas conclusões (um método científico também, importante notar), a análise do cientista de dados seria baseada em dados e observações sobre os dados. Contudo, só é possível analisar os dados com precisão se entendemos qual o problema inicial do cliente; e o relatório final só será bem sucedido se quem paga por ele conseguir enxergar valor. Esse é o conceito mais importante em qualquer trabalho, especialmente com dados: é preciso agregar valor de forma objetiva e visível para o cliente.

Assim, experiência na área que se pretende atuar é muito bem-vinda no Mercado. Como vimos nos requisitos técnicos, Matemática, Probabilidade e Estatística são disciplinas básicas é pré-requisitos para realizar qualquer tipo de análise, mas conhecimento do negócio pode ser um diferencial importante. Assim, um profissional com experiência no Mercado de mídia, por exemplo, pode já ter um conhecimento maior sobre qual o valor buscado pelas empresas, e sua experiência vai fazer com que o produto final seja mais robusto aos olhos do cliente.

Como se tornar um cientista de dados?

Como defendido ao longo do texto, formação básica em ciência é importante e um ponto de partida para todos os profissionais de ciência de dados. Forneço aqui uma lista não extensiva dos cursos de Mestrado com foco em análise de dados que conheço:

Para quem fez a graduação em Universidade privada, uma dura realidade: a maior parte dos programas de pós-graduação em universidades federais possui um processo seletivo que dificulta muito a entrada de alunos oriundos de instituições privadas com baixa produção científica. Minha dica pra você é a seguinte: estude Matemática, Probabilidade e Estatística em primeiro lugar. Existem alguns cursos bem interessantes, como da Udemy e Udacity. Alguns exemplos:

Depois que terminar os cursos online, busque uma pós-graduação lato-sensu para ter alguma experiência na área científica. Infelizmente em Brasília não conheço nenhuma boa na área de análise de dados, mas certamente aparecerão indicações por aqui. Participar de grupos e projetos de pesquisa também é bastante interessante, principalmente pela introdução à metodologia científica tão necessária.

Para finalizar, busque uma área e foque nela. Se deseja trabalhar com mídia, comece estudando comunicação e redes sociais. No último BRASNAM tivemos vários trabalhos sobre o tema que podem ajudar a começar. Se deseja trabalhar com visão computacional, área muito valorizada principalmente por questões de simulação em 3D (veja o pré-sal), busque ferramentas da área e empresas de mídia. Mas, principalmente, fuja do academicismo e tenha em mente que seu principal objetivo é afetar positivamente o negócio da organização e entregar valor. Realizar a análise sem entregar resultados tangíveis é desperdiçar seu tempo e da organização. Existe sim espaço para pesquisa básica na área, mas provavelmente não será trabalho para um cientista de dados que atua no Mercado.

Vou parar esse (longo) texto por aqui. Se tiver mais alguma dúvida fique à vontade para deixar os comentários.

[1] BASTOS, Marco Toledo; RECUERO, Raquel da Cunha; ZAGO, Gabriela da Silva. Taking tweets to the streets: A spatial analysis of the Vinegar Protests in Brazil. First Monday, [S.l.], feb. 2014. ISSN 13960466. Available at: <https://journals.uic.edu/ojs/index.php/fm/article/view/5227>. Date accessed: 27 nov. 2018. doi:https://doi.org/10.5210/fm.v19i3.5227.
[2] Witten, Ian & Frank, E & Hall, M.A. & Pal, C.J.. (2016). Data Mining: Practical Machine Learning Tools and Techniques.
[3] Wazlawick, Raul. (2009). Metodologia de Pesquisa para Ciência da Computação.
Se você gostou desse post, deixe um comentário ou inscreva-se no feed RSS para ter todas os posts enviados para o seu agregador preferido.

Author Description

Eduardo Santos

Mestre em Computação Aplicada pela Universidade de Brasília (UnB), Tecnologista na Agência Espacial Brasileira, professor do Uniceub e cientista de dados (data scientist).

There are 2 comments. Add yours

  1. Pingback: Eduardo F. Santos - Como se tornar um cientista de dados 27 de November de 2018

    […] By Eduardo Santos […]

  2. Pingback: Questões sobre qualidade em análise de dados | Eduardo F. Santos 30 de November de 2018

    […] alguns dias abordei a profissão de cientista de dados, que parece estar no coração de 10/10 empresas em 2018, entrando ainda mais forte no ano de 2019. […]

Leave a Reply

Twitter

Subscribe to Blog via Email

Enter your email address to subscribe to this blog and receive notifications of new posts by email.

Join 12 other subscribers

Alguns direitos reservados

Licença Creative Commons
Este trabalho está licenciado com uma Licença Creative Commons - Atribuição-NãoComercial 4.0 Internacional.