Data Science – ciência ou engenharia?
O termo Data Science, normalmente traduzido para Ciência de Dados, tornou-se viral nos últimos anos, quase sempre envolto num clima de reverência e mistério. Na maioria das vezes em que é usado, aparece conjugado, para não dizer confundido, com os termos Inteligência Artificial e Machine Learning (Aprendizagem Automática). Na verdade, o furor associado aos termos é merecido, mas carece de esclarecimento.
O que é a Ciência de Dados?
A ciência de dados aborda “o processo de extração não trivial de informação implícita, previamente desconhecida e potencialmente útil subjacente a grandes quantidades de dados” [1], como foi proposto na década de 90, sob a égide de outra nomenclatura, nomeadamente knowledge discovery in databases ou simplesmente data mining.
Nasce da confluência de todas as atividades de manipulação de dados no contexto organizacional, desde o desenho e criação de bases de dados (data engineering) até à descoberta de informação (data mining), passando pela sua análise (data analysis) e preparação (data wrangling). Ora, a natureza distinta das várias tarefas exige a utilização de ferramentas diferentes.
É desta necessidade que a ciência de dados aparece frequentemente como a interseção da Engenharia Informática (em particular da Aprendizagem Automática), da Matemática (em particular da Estatística) e do conhecimento específico do domínio de aplicação.
Mas a ciência de dados é arte, ciência ou engenharia?
A relevância económica da ciência de dados na generalidade das atividades produtivas, mas também a falta de engenheiros informáticos em geral, e especializados nesta área, em particular, tem levado a que a ciência de dados seja aplicada por não-engenheiros muitas vezes, para não dizer demasiadas.
É assim habitual vermos definições de ‘cientista de dados’ como sendo um engenheiro informático que sabe mais de estatística do que o habitual, ou um estatístico que sabe melhor programar do que a maioria. Aliado a este facto, a necessidade de conhecimento do domínio para avaliar e validar os resultados, tem contribuído significativamente para manter a aura de ‘arte de descobrir o que não sabemos sobre os dados’ [2]
Mas a engenharia de dados, a sua transformação e posterior manipulação para descoberta de informação, são inequivocamente operações de engenharia e não tarefas que possam ser eficazmente abordadas apenas com ciência ou perícia. Em particular, a descoberta de informação advém quase exclusivamente da aplicação de algoritmos de Aprendizagem Automática, propostos e desenvolvidos pela comunidade de Inteligência Artificial, quase todos há décadas. O desafio não é, portanto, científico, mas sobretudo de engenharia, com a escolha e parametrização mais adequada dos algoritmos para o problema em análise, mas também pela adoção das metodologias mais avançadas de engenharia informática para abordar as tarefas mais eficientemente, e de modo a reutilizar os processos. De facto, a falta de princípios de engenharia por detrás da aplicação da ciência de dados tem originado um conjunto de ineficiências e resultados aquém das expetativas.
Na verdade, começa agora a surgir uma nova profissão – a de Machine Learning engineer, cujas características evidenciam a necessidade de engenheiros para levar a tarefa a bom porto. A par deste novo movimento, começam a surgir vozes a pedir profissionais capazes de desenhar e implementar processos sistemáticos para transformar dados em informação, seguindo os princípios fundamentais de engenharia.
[1] Frawley 1992, ‘Knowledge Discovery in Databases: An Overview’. AI Magazine Volume 13 Number 3 (1992) (© AAAI)
[2] Carlos Somohano, founder of Data Science London
Este artigo de opinião foi publicado na Ingenium – Revista da Ordem dos Engenheiros
Esta pós-graduação em data science destina-se a todos os engenheiros que entendam os fundamentos básicos de linguagens de programação, como o phyton, permitindo-lhes dar os primeiros passos no vasto mundo do data science.
Esta caminhada inicia-se com a aquisição dos conceitos fundamentais na área, as suas práticas essenciais e os seus mecanismos de avaliação mais seguros. Através de três módulos fundamentais e um módulo avançado em deep learning e acompanhado de uma forte componente prática, o curso promove uma aprendizagem eficaz e capacitadora para entrar numa nova profissão.
Cláudia Antunes
Categorias:
- AGILE (2)
- agileleadership (1)
- Antenas (1)
- Arquitetura Empresarial (1)
- Blockchain (3)
- carro (1)
- Cibersegurança (9)
- Ciência de Dados (6)
- Cloud (1)
- Corporate Innovation (1)
- cursos (1)
- Data Analytics (3)
- Design Thinking (1)
- Digital Innovation Leadership (1)
- Economia (2)
- Economia Circular (5)
- Educação (5)
- Empreendedorismo e Inovação (5)
- Engenharia e Gestão (15)
- Escola de Outono (1)
- Eventos (6)
- Finanças para Engenheiros (1)
- Formação Avançada (7)
- Future IT Leadership (1)
- Gestão de Operações (1)
- hidrogenio (1)
- Informação e Sistemas Empresariais (6)
- Informática (15)
- Inovação (2)
- inteligência artificial (2)
- Inteligência Artificial Generativa (2)
- Laboratório (1)
- Lean Six Sigma (1)
- Liderança (1)
- Parcerias (22)
- Reabilitação Urbana (2)
- Redes (1)
- RFID (1)
- Sistemas (2)
- Sustentabilidade (2)
- Tecnologia (5)
- Telecomunicações e 5G (1)
- Transformação Digital (4)
- Técnico+ (7)
Subscreva a nossa newsletter
Receba informações sobre cursos, artigos e eventos do Técnico+