Big Data: Principais desafios e possíveis soluções
Por Miguel Veloso (*)

[caption]Miguel Veloso[/caption]

Big Data é indiscutivelmente um dos temas mais mencionados no momento. Apesar da consciência do impacto e dos benefícios que resultam deste fenómeno, existem no entanto importantes desafios a superar para que as empresas possam atingir os seus objectivos de negócio dentro desta nova realidade. Estes desafios decorrem das características comummente utilizadas para definir o conceito:


  • O volume de dados envolvido é elevado como nunca, na ordem dos petabytes, ou até dos zetabytes, em alguns dos casos
  • A velocidade com que estes dados são gerados é notável - é um facto comum referir-se a colossal quantidade de eventos que ocorre por minuto na Internet
  • A variedade deste universo de informação constitui um novo arquétipo que incorpora quer dados estruturados, quer diferentes tipos de dados não estruturados tais como mails, publicações em redes sociais, vídeo, imagem, som, sinais recolhidos por sensores electrónicos, dados de GPS, etc…

Face a estes desafios as organizações deverão procurar munir-se das tecnologias (I), dos processos (II) e das competências (III) adequadas para conseguir maximizar o retorno do conceito Big Data.

I. Tecnologia
Do ponto de vista tecnológico está hoje à disposição das empresas, e a custos cada vez mais reduzidos, um conjunto variado de soluções que viabilizam a recolha, o armazenamento e a análise de dados com o Volume, a Velocidade, e a Variedade próprios deste novo paradigma. Ao falar de Big Data é inevitável referir soluções tecnológicas tais como ilustrado no seguinte exemplo não exaustivo:


  • Hadoop - plataforma para computação distribuída vocacionada para clusters e processamento intensivo de grandes volumes de dados
  • NoSQL - bases de dados não relacionais cujo objectivo é o armazenamento e processamento de dados não estruturados
  • Computer Appliances - pacotes integrados e devidamente afinados para maximizar o desempenho e minimizar os custos de manutenção, incluindo hardware, sistema operativo e motor de base de dados, podendo ainda abranger tecnologias tais como In-memory e/ou Infiniband
  • R - linguagem e ambiente open source para cálculo estatístico / data mining e visualização de dados. Tendo iniciado a sua penetração em força no meio académico há pouco mais de dez anos, o R é agora encarado muito seriamente por toda a indústria à volta do Big Data Analytics


II. Processos
Novas abordagens aos processos de manipulação dos dados não estruturados, balanceando e compaginando a arquitectura com a inclusão de dados estruturados, são o segundo elemento chave para desbloquear a capacidade de transformar a informação em novas fontes de valor. O simples processo de acesso à informação e a relatórios não será mais suficiente no contexto do Big Data. As organizações terão de ser capazes de aplicar ao negócio os princípios da experimentação científica. Será necessário formular hipóteses inteligentes e apropriadas e entender e dominar os princípios do desenho e teste de análises experimentais, incluindo nomeadamente os processos de selecção de populações e de amostragem, no sentido de avaliar acertadamente a validade estatística das análises efectuadas.

III. Competências
O ponto anterior evidencia a necessidade de as organizações disporem de competências altamente especializadas. Estas competências não estarão centradas como habitualmente na função de IT, mas distribuídas integralmente e cada vez mais em todas as funções e actividades de negócio. Desta constatação emerge uma nova função na organização, sem a qual os dados (Big Data) não terão qualquer utilidade prática nas organizações: a função de Cientista de Dados. Estes elementos, com perfil matemático / estatístico, apresentam elevadas competências para resolução de problemas, no desenho de análises experimentais, em lógica e análise quantitativa, o que, em combinação com um profundo conhecimento de negócio, completa o conjunto de três pilares (I. Tecnologia, II. Processos e III. Competências) indispensáveis para uma organização maximizar o potencial do Big Data.

O sucesso de uma iniciativa Big Data reside, por um lado, na definição correcta dos objectivos e estratégia e, por outro, na orquestração apropriada dos três pilares descritos anteriormente. Esta tarefa é multidisciplinar, complexa, requer experiência e visão do todo. Não sendo possível dispor das condições ideais para isoladamente levar a cabo um projecto no domínio do Big Data, as organizações podem fazê-lo recorrendo a parceiros de negócio que demonstrem possuir este leque abrangente de competências.

Em alternativa, as organizações podem ainda optar por uma solução diferente e tirar partido de outro fenómeno recente e em franca expansão - a cloud - contratando um serviço Big Data as a Service. Estes serviços caracterizam-se por ajudar o cliente a definir a sua estratégia e por proporcionar, a pedido, um pacote integrado de capacidades analíticas de grandes volumes de dados, tanto estruturados, quanto não estruturados, permitindo além disso ao cliente interagir facilmente com os resultados obtidos. Deste modo as organizações podem atingir os seus objectivos de negócio que resultam deste novo paradigma, numa fracção do tempo que seria necessário através de uma solução convencional, com eficiência de custos (OPEX previsível e baseado no princípio do pagamento pela utilização, não implicando portanto avultados investimentos em CAPEX), usufruindo da competência e vasta experiência de Cientistas de Dados altamente especializados e focados, e com escalabilidade rápida e assegurada.

Conhecendo-se os principais desafios e constatando-se que estão identificados instrumentos para os ultrapassar, conclui-se que as organizações têm condições para avançar imediatamente para este novo mundo, evitando assim ficar de fora de um dos eventos mais disruptivos das últimas décadas e que se apresenta como um dos principais factores distintivos das organizações no futuro.

(*) Manager da Accenture Portugal na área de Tecnologia