O termo Data Science, normalmente traduzido para Ciência de Dados, tornou-se viral nos últimos anos, quase sempre envolto num clima de reverência e mistério. Na maioria das vezes em que é usado, aparece conjugado, para não dizer confundido, com os termos Inteligência Artificial e Machine Learning (Aprendizagem Automática). Na verdade, o furor associado aos termos é merecido, mas carece de esclarecimento.
A ciência de dados aborda “o processo de extração não trivial de informação implícita, previamente desconhecida e potencialmente útil subjacente a grandes quantidades de dados” [1], como foi proposto na década de 90, sob a égide de outra nomenclatura, nomeadamente knowledge discovery in databases ou simplesmente data mining.
Nasce da confluência de todas as atividades de manipulação de dados no contexto organizacional, desde o desenho e criação de bases de dados (data engineering) até à descoberta de informação (data mining), passando pela sua análise (data analysis) e preparação (data wrangling). Ora, a natureza distinta das várias tarefas exige a utilização de ferramentas diferentes.
É desta necessidade que a ciência de dados aparece frequentemente como a interseção da Engenharia Informática (em particular da Aprendizagem Automática), da Matemática (em particular da Estatística) e do conhecimento específico do domínio de aplicação.
A relevância económica da ciência de dados na generalidade das atividades produtivas, mas também a falta de engenheiros informáticos em geral, e especializados nesta área, em particular, tem levado a que a ciência de dados seja aplicada por não-engenheiros muitas vezes, para não dizer demasiadas.
É assim habitual vermos definições de ‘cientista de dados’ como sendo um engenheiro informático que sabe mais de estatística do que o habitual, ou um estatístico que sabe melhor programar do que a maioria. Aliado a este facto, a necessidade de conhecimento do domínio para avaliar e validar os resultados, tem contribuído significativamente para manter a aura de ‘arte de descobrir o que não sabemos sobre os dados’ [2]
Mas a engenharia de dados, a sua transformação e posterior manipulação para descoberta de informação, são inequivocamente operações de engenharia e não tarefas que possam ser eficazmente abordadas apenas com ciência ou perícia. Em particular, a descoberta de informação advém quase exclusivamente da aplicação de algoritmos de Aprendizagem Automática, propostos e desenvolvidos pela comunidade de Inteligência Artificial, quase todos há décadas. O desafio não é, portanto, científico, mas sobretudo de engenharia, com a escolha e parametrização mais adequada dos algoritmos para o problema em análise, mas também pela adoção das metodologias mais avançadas de engenharia informática para abordar as tarefas mais eficientemente, e de modo a reutilizar os processos. De facto, a falta de princípios de engenharia por detrás da aplicação da ciência de dados tem originado um conjunto de ineficiências e resultados aquém das expetativas.
Na verdade, começa agora a surgir uma nova profissão – a de Machine Learning engineer, cujas características evidenciam a necessidade de engenheiros para levar a tarefa a bom porto. A par deste novo movimento, começam a surgir vozes a pedir profissionais capazes de desenhar e implementar processos sistemáticos para transformar dados em informação, seguindo os princípios fundamentais de engenharia.
[1] Frawley 1992, ‘Knowledge Discovery in Databases: An Overview’. AI Magazine Volume 13 Number 3 (1992) (© AAAI)
[2] Carlos Somohano, founder of Data Science London
Este artigo de opinião foi publicado na Ingenium – Revista da Ordem dos Engenheiros
Esta pós-graduação em data science destina-se a todos os engenheiros que entendam os fundamentos básicos de linguagens de programação, como o phyton, permitindo-lhes dar os primeiros passos no vasto mundo do data science.
Esta caminhada inicia-se com a aquisição dos conceitos fundamentais na área, as suas práticas essenciais e os seus mecanismos de avaliação mais seguros. Através de três módulos fundamentais e um módulo avançado em deep learning e acompanhado de uma forte componente prática, o curso promove uma aprendizagem eficaz e capacitadora para entrar numa nova profissão.