Opinião: Einstein na análise de dados

12 fev 2016 18:20

Este artigo tem mais de 9 anos

Einstein e a Teoria da Relatividade dão o mote a um artigo de opinião de João Pires da Cruz, físico, fundador da Closer e especialista em Business Intelligence e Data Science. Como voltámos a confirmar esta semana, as teorias do físico alemão continuam a marcar a atualidade.

João Pires da Cruz *

No ano transato cumpriu-se o centenário da apresentação da teoria que fez de Albert Einstein, "Einstein". A mais brilhante, e abstrata, de todas as suas descobertas, a Teoria da Relatividade Geral. Mas 100 anos após a apresentação, os conceitos associados à sua elaboração são ainda demasiado abstratos para a esmagadora maioria das pessoas, incluindo aqueles que todos os dias são obrigados a lidar com eles. O conceito fundamental é o conceito de "espaço curvo" e virá a pergunta "o que eu tenho a ver com isso?". A resposta para quem anda envolvido com processos analíticos é do que se tratam as linhas seguintes.

Embora o mundo da análise mecânica de dados se continue a concentrar na algoritmia, onde os ganhos de um algoritmo para o outro são cada vez mais marginais, o fundamental para quem os usa continua a ser olimpicamente ignorado. E o fundamental é que há pressupostos matemáticos, para a utilização desses algoritmos, nos dados que temos pela frente. Não vale a pena termos TB de dados se nos deitamos a olhar para o espaço das características como se fosse plano. O que é que isto quer dizer?

Imaginemos que aquilo que caracteriza o nosso cliente à chegada do balcão é uma variável numérica qualquer. E temos uma função objetivo. Por exemplo, quer comprar um segundo produto ou não. Se o espaço das características fosse plano, o ponto de coordenada 0 e o ponto de coordenada 100 distavam 100. Se 100 fosse "compra de certeza" e 0 fosse "não compra de certeza" então o cliente com 50 estaria exatamente no meio. Não serei ambicioso ao assumir que qualquer um de nós já entendeu que muitos dos nossos problemas não se enquadram neste tipo de problema. Exatamente porque o espaço económico não é plano, é curvo.

Num espaço curvo, as distâncias quando medidas nas coordenadas variam de ponto para ponto. No nosso exemplo, o ponto médio não era na quota 50 mas poderia ser na quota 95. Como os problemas de análise de dados envolvem, normalmente, bem mais que uma variável, a curvatura do espaço das características é o problema fundamental de todo o problema de análise de dados. Muitas vezes ultrapassado pela sorte dos dados em análise serem muito localizados nesse espaço, mas na maior parte dos casos temos modelos a ser corridos vezes e vezes sem conta, dando resultados substancialmente diferentes conforme a amostra que usamos para treino. Quando isto acontece, não serve de nada substituirmos o algoritmo ou andarmos a cozinhar os conjuntos de treino. O problema, tal como está colocado à máquina, não é resolúvel. A máquina só vai aprender e saber distinguir os dados se o espaço onde estiver a trabalhar for um espaço plano e essa é a tarefa que um analista de dados deve proceder antes de correr algoritmo atrás de algoritmo.

A questão ganha uma importância ampliada quando estamos em frente a problemas de personalização, no qual todos nós já nos questionámos como seria possível uma empresa achar que "aquele" produto seria interessante para nós. Quando procuramos usar quantidades gigantescas de dados para conseguir determinar o que "aquele cliente" quer, é como entrarmos num vórtice onde a curvatura do espaço se amplia por estarmos a usar mais e mais dimensões de análise para conseguir atingir um cruzamento mais detalhado.

Nem de propósito, 100 anos depois de ser apresentada à Academia Prussiana, a formulação matemática que levou 8 anos a desenvolver torna-se atual nos problemas aparentemente mais simples do dia-a-dia. Não é excitante?

* PhD em Física, Co-Fundador e Partner da Closer