Por João Pires da Cruz (*)

 

Imagine o leitor que tem uma base de dados com uns milhares de registos e, por acaso, eu lhe ofereço a possibilidade de passar para uns milhões de registos. Diria que vai passar a saber mais, menos ou a mesma coisa? A intuição diz-nos que vou passar a saber mais, muito mais. Mas essa foi a forma como fomos habituados a pensar. A realidade é bastante diferente e é demonstrável, quer teoricamente, quer na prática. A resposta correcta é “depende do tipo de informação”.

Vou ter que tocar na matemática da coisa para explicar, pelo que peço desculpa aos menos habituados. Quando recolhemos uma quantidade grande, ou pequena, de registos esse conjunto de dados reflecte exclusivamente o passado. Não nos diz, por exemplo, o que o cliente quer consumir, apenas diz o que o cliente consumiu. Nós extrapolamos a informação para o futuro com base num pressuposto: a informação do passado reflecte, em boa aproximação, aquilo que se vai passar no futuro. E em muitos problemas, incluindo os padrões de consumo, o pressuposto é válido.

Mas este pressuposto não é válido em muitos outros problemas. Há os problemas que envolvem falta de estacionariedade e variáveis de variância infinita. Palavrões à parte, são os problemas que envolvem sistemas cujas medidas crescem em função do valor que tinham antes. Exemplos são, rendimento mensal, total de activos, total de passivos, número de amigos no facebook, número de clicks no site, etc. O que significa serem de variância infinita? Significa que o erro de um processo de aprendizagem aumenta com o tamanho da amostra ou, por outras palavras, quanto mais informação recebemos, menos sabemos (e ainda há quem diga que a matemática não é interessante!).

Portanto, relativamente aos dados e à sua quantidade temos dois tipos de problema, aquele que quanto mais dados tivermos mais sabemos e aquele que quanto mais dados tivermos menos sabemos. Do primeiro caso, à medida que vamos tendo dados vamos convergindo para a resposta correcta. Ou seja, a minha oferta inicial de lhe passar os dados de uns milhares para milhões vai ter um ganho marginal para si, no sentido em que vai ter uma resposta mais rigorosa, mas não substancialmente diferente da que já tem. No segundo caso a minha oferta é inútil, o leitor não estava perto da resposta e não é pela oferta que se vai aproximar.

É o BigData uma versão nova e cara de uma velha prática? Se olharmos directamente para os dados, e se o leitor tomar como bons os argumentos anteriores, sim. Mas se olhar para estas dificuldades como uma nova oportunidade, não. Há coisas maravilhosas a fazer com um volume de dados grande, desde que se conheça do ponto de vista teórico as limitações que os dados carregam consigo. Como gosto por vezes de dizer, temos que perguntar antes “qual é a física do problema?”.

Da física do problema surge o enquadramento teórico em que os dados que recolhemos estão mergulhados e daqui a resposta que procuramos. O meu exemplo favorito é o do movimento da Terra. Se Galileu usasse a quantidade de dados que tinha, nunca diria que os planetas orbitam o Sol. Porque só duas imagens, das milhares que tinha, seriam capazes de corroborar tal hipótese. As duas imagens e a teoria de Copérnico, que explicava os milhares, mais duas.

Devo investir em BigData? Se é para fazer o mesmo que fazia antes, não vale a pena. Mas se está disposto a atacar os problemas de outra forma? Há um mundo maravilhoso à sua frente. Mais exigente, não é para todos, mas repleto de novas oportunidades.

 

 

(*) PhD em Física, Co-Fundador e Partner da Closer