Visão geral

Big Data é a análise e tratamento de conjuntos de dados variados que possuem grande volume e que chegam numa velocidade cada vez maior. Esses conjuntos de dados são tão grandes e complexos que não podem ser processados por um software tradicional de processamento de dados, os dados são diversos e podem ser vídeos, áudios, imagens, textos, operações bancarias, número de acessos a uma página na web e etc. A Big Data é definida através dos três Vs, sendo eles:

Volume: é a quantidade de dados que terão que ser processados. O tamanho dos dados é essencial na determinação do valor dos dados, principalmente se eles podem ou não serem considerados Big Data.

Velocidade: é a velocidade em que esses dados são produzidos e devem ser processados e analisados. A velocidade dos dados é imensa e contínua, crescendo de forma exponencial.

Variedade: os dados podem ser variados e são divididos em três tipos: estruturados, não estruturados e semiestruturados. Dados estruturados são qualquer tipo de informação que possuem um padrão ou formato que podem ser utilizados na leitura ou extração dos dados, como transações e registros financeiros. Dados não estruturados são informações com um formato ou estrutura desconhecidos, como por exemplo: textos, imagens e vídeos. Dados semiestruturados são combinações dos dois tipos de dados anteriores, podem ser por exemplo, logins em uma página na web.

Com o passar do tempo novos Vs foram adicionados, como o Valor e a Veracidade. O Valor é a relevância desses dados para o negócio e a Veracidade é a qualidade dos dados, as informações são recebidas de muitas fontes diferentes, portanto é necessário conectar e correlacionar esses dados.

História

Embora o conceito de Big Data seja relativamente novo, a origem de grandes conjuntos de dados remontam às décadas de 1960 e 1970, com o surgimento dos primeiros data centers e o desenvolvimento do bando de dados relacional. No entanto, a origem do termo Big Data em si nasceu no início da década de 1990, na NASA, para descrever uma grande quantidade de dados complexos que desafiam os limites computacionais tradicionais de captura, processamento, análise e armazenamento de informações. Mas foi só em 2005 que o termo passou a ser usado oficialmente, quando Roger Mougalas publicou um artigo mencionando o tema.

Com o passar do tempo os cientistas de dados começaram a verificar que bancos de dados relacionais não conseguiriam suportar uma grande quantidade de dados não estruturados. Desta maneira, novas tecnologias e processos tiveram que ser desenvolvidos para permitir que esses dados não estruturados fossem analisados. Assim, em 2005 foi criado o Hadoop (uma estrutura open source criada pelo Yahoo, especificamente para armazenar e analisar um grande conjunto de dados), considerado uma das maiores invenções de data management desde o modelo relacional. O desenvolvimento de estruturas de código aberto como essa foram essenciais para o crescimento do Big Data, pois transformavam seu trabalho mais fácil e mais barato. Em 2014 foi criado o Spark, uma ferramenta Big Data que tem o objetivo de processar grandes conjuntos de dados de forma paralela e distribuída. Ela estende o modelo de programação MapReduce popularizado pelo Hadoop, facilitando bastante o desenvolvimento de aplicações de processamento de grandes volumes de dados. Atualmente, é utilizado uma combinação das duas estruturas.

Como Big Data Funciona

O uso de soluções de Big Data se dá através de três etapas:

Coleta: É quando a ferramenta busca dados, estejam eles estruturados ou não, reunindo dados de diversas fontes e aplicativos diferentes com a combinação de conteúdos internos e externos.

Armazenamento: O armazenamento consiste na distribuição dos dados em servidores, dispositivos e sistemas distintos, tanto físicos quanto na nuvem. Geralmente a Big Data e armazenada em “data lakes”, estes, são depósitos que contém uma grande volume de dados brutos e suportam diversos tipos de dados, são baseados em Hadoop, serviço de armazenamento na nuvem, bancos de dados NoSQL e outras grandes plataformas. Muitos ambientes de big data combinam vários sistemas em uma arquitetura distribuída; por exemplo, um data lake central pode ser integrado a outras plataformas, incluindo bancos de dados relacionais ou um data warehouse. Os dados em sistemas de big data podem ser deixados em sua forma bruta e, em seguida, filtrados e organizados conforme necessário para usos específicos de análise.

Análise: Para obter resultados válidos e relevantes na análise de big data, os cientistas de dados e outros analistas de dados devem ter uma compreensão detalhada dos dados disponíveis e uma noção do que estão procurando neles. Isso torna a preparação de dados, que inclui criação de perfil, limpeza, validação e transformação de conjuntos de dados, uma primeira etapa crucial no processo de análise. Depois que os dados são coletados e preparados para análise, várias disciplinas de ciência de dados e análise avançada podem ser aplicadas para executar diferentes aplicativos, usando ferramentas que fornecem recursos e capacidades de análise de big data. Essas disciplinas incluem aprendizado de máquina e seu desdobramento de aprendizado profundo, modelagem preditiva, mineração de dados, análise estatística, análise de streaming, mineração de texto e muito mais.

Aplicações

A Big Data é usada por empresas para melhorar operações, prover um melhor serviço ao cliente, criar campanhas personalizadas de marketing e tomar outras decisões que podem aumentar a receita e os lucros da mesma. Negócios que utilizam soluções de Big Data possuem vantagem competitiva em relação à aqueles que não utilizam, pois elas são utilizadas para tomar decisões mais rápidas e mais bem informadas do negócio. No geral, Big Data pode ajudar com diversas atividades de negócios, que vão desde a experiência do cliente a demanda de produtos e machine learning.

O Big Data é utilizado principalmente no setor corporativo, suas maiores aplicações são, segmentação do público e mercado, análise de marketing, experiência do cliente, eficiência operacional, machine learning, desenvolvimento de produtos. A Netlix por exemplo, utiliza Big Data para antecipar a demanda dos clientes, assim, eles criam modelos preditivos para novos produtos e serviços, classificando os principais atributos de produtos ou serviços passados e atuais e modelando a relação entre esses atributos e o sucesso comercial das ofertas.

Já na esfera estatal, o Big Data pode ser usado na prevenção de crimes, em iniciativas de cidade inteligente, na elaboração de sensos e pesquisas e etc. Além disso Big Data também é usada na área médica de pesquisa, para encontrar sinais de doenças e fatores de riscos e por médicos para ajudar a diagnosticar doenças e condições médicas nos pacientes. Em adição a isso, uma combinação de dados provenientes de registros eletrônicos de saúde, redes sociais, internet e outras fontes, dão a empresas de saúde e agências governamentais informações em tempo real sobre ameaças de doenças infecciosas e surtos, como por exemplo recente, o surto de Corona Virus.

Desafios

Apesar do desenvolvimento de tecnologias para o armazenamento de dados, os volumes de dados estão dobrando de tamanho a cada dois anos, como a quantidade só aumenta com o passar do tempo, sempre é necessário desenvolver novas soluções de armazenamento para um volume cada vez maior de dados, sendo um problema contínuo que só vai aumentar ao longo dos próximos anos. Além disso, é necessário analisar esses dados e extrair apenas o que for importante e relevante para o negócio. A segurança dos dados também é um desafio, principalmente com o aumento crescente dos ataques de hackers que vão desde da esfera pública até o setor privado.

Outros desafios no gerenciamento de sistemas de big data incluem tornar os dados acessíveis a cientistas e analistas de dados, especialmente em ambientes distribuídos que incluem uma combinação de diferentes plataformas e armazenamentos de dados. Para ajudar os analistas a encontrar dados relevantes, as equipes de análise e gerenciamento de dados estão criando cada vez mais catálogos de dados que incorporam funções de gerenciamento de metadados e linhagem de dados. O processo de integração de conjuntos de big data também costuma ser complicado, principalmente quando a variedade e a velocidade dos dados são fatores.

Referências

[1] O que é Big Data?. Oracle. Disponível em: <https://www.oracle.com/br/big-data/what-is-big-data/>. Acesso em 28 agosto de 2022.
[2] Big Data: o que é, como funciona e como aplicar?. TOTVS. Publicado em 22 de março de 2021. Disponível em: <https://www.totvs.com/blog/inovacoes/big-data/>. Acesso em 28 agosto de 2022.
[3] Big Data: Tudo o que você precisa saber. Cetax. Publicado em 05 de março de 2018. Disponível em: <https://cetax.com.br/big-data-tudo-o-que-voce-precisa-saber/#:~:text=O%20termo%20Big%20Data%20nasceu,processamento%2C%20análise%20e%20armazenamento%20informacional.>. Acesso em 28 agosto de 2022.
[4] Doyle, Daniella. O que é Big Data e por que é tão valioso para sua empresa. Siteware. Publicado em 28 de janeiro de 2019. Disponível em: <https://www.siteware.com.br/gestao-estrategica/o-que-e-big-data/>. Acesso em 28 agosto de 2022.
[5] Botelho, Bridget; Bigelow, Stephen. What is Big Data?. TechTarget. Atualizado em janeiro de 2022. Disponível em: <https://www.techtarget.com/searchdatamanagement/definition/big-data>. Acesso em 28 agosto de 2022.
[6] Taylor, David. What is Big Data? Introduction, Types, Characteristics, Examples. Guru99. Atualizado em 30 de julho de 2022. Disponível em: <https://www.guru99.com/what-is-big-data.html>. Acesso em 28 agosto de 2022.