Database
 sql >> Base de Dados >  >> RDS >> Database

Entendendo as 3 principais características do Big Data


O fato de as organizações enfrentarem desafios de Big Data é comum hoje em dia. O termo Big Data refere-se ao uso de um conjunto de múltiplas tecnologias, antigas e novas, para extrair algumas informações significativas de uma enorme pilha de dados. O conjunto de dados não é apenas grande, mas também possui seu próprio conjunto exclusivo de desafios para capturá-los, gerenciá-los e processá-los. Ao contrário dos dados persistidos em bancos de dados relacionais, que são estruturados, o formato big data pode ser estruturado, semiestruturado a não estruturado ou coletado de diferentes fontes com tamanhos diferentes. Este artigo aprofunda os aspectos fundamentais do Big Data, suas características básicas e dá uma dica das ferramentas e técnicas utilizadas para lidar com ele.

Uma visão geral


O termo Big Data dá uma impressão apenas do tamanho dos dados. Isso é verdade em certo sentido, mas não dá o quadro completo. Os desafios associados a ela não se limitam apenas ao seu tamanho. Na verdade, a ideia evoluiu para nomear um mar de dados coletados de várias fontes, formatos e tamanhos e, ao mesmo tempo, difíceis de aproveitar ou obter valor. A ascensão da tecnologia emergente e o uso crescente da Internet deram um impulso ao volume e à disparidade. O volume continua aumentando a cada troca de informações pela Internet ou até mesmo pelos minúsculos objetos de IoT que usamos. Um simples atendimento de uma chamada telefônica ou ligar o CFTV pode gerar uma cadeia de dados. Hoje, a maioria dos dispositivos está conectada online. Agora, se uma organização deseja coletar essas informações online, ela precisa de um processo de processamento especial porque os dados gerados serão massivos. Além disso, pode não haver uniformidade no formato dos dados capturados. Isso aumenta a complexidade, pois temos que lidar com dados estruturados, semiestruturados ou não estruturados. As ferramentas que usamos até agora para organizar os dados são incapazes de lidar com tanta variedade e volume. Portanto, podemos dizer que o termo Big Data realmente se aplica aos dados que não podem ser processados ​​ou analisados ​​por meio de ferramentas e técnicas tradicionais que normalmente são usadas para processar dados estruturados ou semiestruturados, como o uso de bancos de dados relacionais, XML e assim por diante.

As organizações hoje estão repletas de dados não estruturados ou semiestruturados disponíveis em formato bruto. Esses dados podem ser uma riqueza de informações se processados ​​e o valor obtido com isso. Mas, o problema é como fazê-lo. Técnicas e ferramentas tradicionais, como bancos de dados relacionais, são inadequadas para lidar com um volume tão grande de dados variados. Também é um problema de dois gumes para as organizações, porque simplesmente destruí-las significaria perder informações valiosas – se houver – e mantê-las é um desperdício de recursos. Portanto, algumas ferramentas e técnicas são buscadas para lidar com o problema. Às vezes, temos certeza de que seu valor potencial está na pilha e podemos colher uma mina de ouro de informações, mas, sem as ferramentas adequadas, é bastante desgastante para o processo de negócios colher qualquer benefício disso. Os dados hoje são enormes e explodiram como qualquer coisa nos últimos anos; parece não haver como pará-lo, a propósito.

Explosão de informações


O big data está crescendo a cada minuto em quase todos os setores, seja tecnologia, mídia, varejo, serviços financeiros, viagens e mídias sociais, para citar apenas alguns. O volume de processamento de dados de que estamos falando é incompreensível. Aqui estão algumas informações estatísticas para você ter uma ideia:
  • Os canais meteorológicos recebem 18.055.555 solicitações de previsão a cada minuto.
  • Os usuários da Netflix transmitem 97.222 horas de vídeo a cada minuto.
  • Os usuários do Skype fazem 176.220 chamadas a cada minuto.
  • Os usuários do Instagram postam 49.380 fotos a cada minuto.

Esses números estão crescendo a cada ano, com um número crescente de pessoas usando a Internet. Em 2017, o uso da Internet atingiu até 47% (3,8 bilhões de pessoas) da população mundial. Com um número cada vez maior de dispositivos eletrônicos, nossos dados de saída aproximados são estimados em 2,5 quintilhões de bytes por dia e crescendo.

As estatísticas da Pesquisa Google mostram 3,5 bilhões de pesquisas por dia, o que representa mais de 40.000 pesquisas por segundo em média. Também não devemos perder que outros motores de busca também estão fazendo buscas. O Relatório de Estatísticas de E-mail, 2015-2019 do Radicati Group, Inc., mostra 2,9 bilhões de usuários de e-mail até 2019.

Em uma tentativa de estimar quantas fotos serão tiradas em 2017:Se havia 7,5 bilhões de pessoas no mundo em 2017, com cerca de 5 bilhões com telefones celulares, um palpite provável é que 80% desses telefones tenham câmeras embutidas. Isso significa que existem cerca de 4 bilhões de pessoas usando suas câmeras. Se eles tiram 10 fotos por dia, o que equivale a 3.650 fotos por ano por pessoa, isso soma aproximadamente 14 trilhões de fotos sendo tiradas por ano.

Portanto, quando dizemos Big Data, refere-se essencialmente a dados ou conjuntos de registros que são grandes demais para serem conjecturados. Eles são produzidos através dos motores de busca, informática empresarial, redes sociais, mídias sociais, genômica, meteorologia, previsões do tempo e muitas outras fontes. Isso claramente não pode ser operado usando ferramentas e técnicas de gerenciamento de banco de dados existentes. Big Data abre uma arena de grandes desafios em termos de armazenamento, captura, gerenciamento, manutenção, análise, pesquisa, novas ferramentas para lidar com eles e afins.

Características de Big Data


Como acontece com todas as grandes coisas, se queremos gerenciá-las, precisamos caracterizá-las para organizar nosso entendimento. Portanto, Big Data pode ser definido por uma ou mais de três características, os três Vs:alto volume , alta variedade , e alta velocidade . Essas características levantam algumas questões importantes que não apenas nos ajudam a decifrá-los, mas também fornecem uma visão sobre como lidar com dados massivos e díspares em uma velocidade gerenciável dentro de um prazo razoável para que possamos obter valor com isso, fazer algumas análise em tempo real e fornecer uma resposta subsequente rapidamente.
  • Volume: Volume refere-se ao tamanho dos dados em constante explosão do mundo da computação. Isso levanta a questão sobre a quantidade de dados.
  • Velocidade: A velocidade refere-se à velocidade de processamento. Isso levanta a questão de com que velocidade os dados são processados.
  • Variedade: Variedade refere-se aos tipos de dados. Isso levanta a questão de quão díspares são os formatos de dados.

Observe que caracterizamos o Big Data em três Vs, apenas para simplificar seus princípios básicos. É bem possível que o tamanho possa ser relativamente pequeno, mas muito variado e complexo, ou pode ser relativamente simples, mas com um grande volume de dados. Portanto, além desses três Vs, podemos adicionar facilmente outro, Veracidade . A veracidade determina a precisão dos dados em relação ao valor do negócio que queremos extrair. Sem veracidade, é inviável para uma organização aplicar seus recursos para analisar a pilha de dados. Com mais precisão quanto ao contexto dos dados, há uma chance maior de obter informações valiosas. Portanto, a veracidade é outra característica do Big Data. As empresas aproveitam dados estruturados, semiestruturados e não estruturados de e-mail, mídia social, fluxos de texto e muito mais. Mas, antes da análise, é importante identificar a quantidade e os tipos de dados em consideração que afetariam os resultados dos negócios.

Ferramentas e técnicas


Inteligência Artificial (IA), IoT e mídias sociais estão impulsionando a complexidade dos dados por meio de novas formas e fontes. Por exemplo, é crucial que, em tempo real, o big data vindo de sensores, dispositivos, redes, transações seja capturado, gerenciado e processado com baixa latência. O Big Data permite que analistas, pesquisadores e usuários de negócios tomem decisões mais informadas com mais rapidez, usando dados históricos que de outra forma seriam inatingíveis. Pode-se usar análise de texto, aprendizado de máquina, análise preditiva, mineração de dados e processamento de linguagem natural para extrair novos insights da pilha de dados disponível.

A tecnologia evoluiu para gerenciar grandes volumes de dados, que antes eram caros e precisavam contar com a ajuda de supercomputadores. Com o surgimento de mídias sociais como Facebook, buscadores como Google e Yahoo!, os projetos de Big Data ganharam impulso e cresceram como são hoje. Tecnologias como MapReduce, Hadoop e Big Table foram desenvolvidas para atender às necessidades atuais.

Os repositórios NoSQL também são mencionados em relação ao Big Data. É um banco de dados alternativo em contraste com bancos de dados relacionais. Esses bancos de dados não organizam os registros em tabelas de linhas e colunas como nos bancos relacionais convencionais. Existem diferentes tipos de bancos de dados NoSQL, como Content Store, Document Store, Event Store, Graph, Key Value e similares. Eles não usam SQL para consultas e seguem um modelo de arquitetura diferente. Eles são encontrados para facilitar o Big Data Analytics de maneira favorável. Alguns nomes populares são:Hbase, MongoDB, CouchDB e Neo4j. Além deles, existem muitos outros.

Conclusão


O Big Data abriu uma nova oportunidade para coletar dados e extrair valor deles, que de outra forma estariam desperdiçando. É impossível capturar, gerenciar e processar Big Data com a ajuda de ferramentas tradicionais, como bancos de dados relacionais. A plataforma de Big Data fornece as ferramentas e os recursos para extrair insights do volume, da variedade e da velocidade dos dados. Essas pilhas de dados passaram a ter meios e contextos viáveis ​​para serem utilizados para diversas finalidades no processo de negócio de uma organização. Portanto, para identificar exatamente de que tipo de dados estamos falando, devemos entendê-los e suas características como o primeiro passo.