Big Data e os algoritmos

Por Patrícia Vauquier, para o Duplo Expresso

Dava até pra ser nome de banda de rock dos anos 1980, mas Big Data e algoritmos fazem parte do mais novo vocabulário de informática ou TI (Tecnologia da Informação) dos últimos tempos. É a última moda das grandes empresas.

O que é Big Data? É o equivalente ao petróleo do novo milênio. Seria a capacidade de explorar economicamente a análise quantitativa dos dados disponíveis. A evolução do sistema de informação, o aumento da potência dos microprocessadores, a diminuição dos custos de armazenamento de dados e a velocidade das redes proporcionou esse salto.

O capitalismo do século XXI desvinculou-se da produção, dirigindo-se aos serviços (o Gustavo Galvão pode explicar isso bem melhor do que eu). E, no que diz respeito aos serviços, as informações são um bem preciosíssimo. Para se ter uma ideia do volume existente nas trocas de informações, se 1 byte = 8 bits (combinação de 0s e de 1s) fosse equivalente a um grão de areia poderíamos considerar o Big Data como todo o volume de areia existente nas praias do nordeste brasileiro.

E de onde vêm esses dados? Das redes sociais, dos sistemas de geolocalização dos celulares, ou de outros objetos conectados, de cadastros de empresas, etc. Em 2009, foi criada a W3C: World Wide Web Consortium, uma comunidade internacional que tem por objetivo o desenvolvimento de práticas, para garantir o crescimento da web. Ali, há um bom conteúdo para programadores, usuários e curiosos.

A variedade e o volume de dados são tão grandes, que as ferramentas existentes para tratar e explorar essa enorme quantidade de informações são obsoletas. É quase como tentar cavar um túnel de metrô com uma pá de brinquedo. Há ainda a incompatibilidade de programas e tecnologias. A fim de armazenar e explorar essa gigantesca quantidade de dados, é preciso dispor de equipamentos adequados.

A principal importância do Big Data não está centrada apenas na variedade e no volume dos dados, ou, ainda, na velocidade com que são analisados, mas sim em sua capacidade de permitir a correlação dos mesmos. É o que a indústria da informática chama de data mining (em português, mineração de dados).

Eis a definição do termo na Wikipedia:

“A mineração de dados é formada por um conjunto de ferramentas e técnicas que, através do uso de algoritmos de aprendizagem ou classificação baseados em redes neurais e estatística, são capazes de explorar um conjunto de dados, extraindo ou ajudando a evidenciar padrões nestes dados e auxiliando na descoberta de conhecimento. Esse conhecimento pode ser apresentado por essas ferramentas de diversas formas: agrupamentos, hipóteses, regras, árvores de decisão, grafos, ou dendrogramas.”

E é nos algoritmos que encontramos o cerne do Big Data: os dados são armazenados num data lake (pense num lago enorme, cheio de informações armazenadas em formato bruto). A forma como estas informações são pesquisadas nesse lago são os algoritmos. Quem elabora os algoritmos são profissionais especializados em programação, que traduzem a necessidade do “cliente” de obter informações especificas a partir da pesquisa realizada pelos algoritmos nesses data lakes. Os algoritmos podem fazer relações entre os mais diversos dados: a quantidade de brasileiros que viaja constantemente ao exterior, domicilio e hábitos de lazer.

Ou ainda, eles podem ordenar os resultados de pesquisas em ferramentas de busca. Por exemplo, vamos supor que uma empresa disponha de uma determinada ferramenta de pesquisa na internet. Imagine que essa empresa considere artigos disseminando ideias socialistas como sendo nocivos a seus usuários. Assim, ela pode determinar que pesquisas feitas na sua ferramenta não resultem em artigos de natureza socialista ou, então, pode fazer com que a ferramenta selecione artigos contrários ao socialismo, relegando os favoráveis para o último lugar na fila da pesquisa (final da página 1000, por exemplo).

Um outro uso dos algoritmos é na área de “segurança”. Usam-se algoritmos, para identificar padrões e usuários da internet a partir do uso de certos termos. É a “pesca” das palavras-chave que vai monitorar as trocas na rede, entre e-mails, rede sociais, mensagens de telefone. Mas o filé mignon no uso dos algoritmos está no tratamento do “produto” das mídias sociais: os dados de seus usuários, que são vendidos às empresas interessadas (que os usam para ofertar produtos específicos, dirigindo a esses usuários mensagens publicitárias correspondentes às necessidades destes).

No dia 25 de maio de 2018, a Europa implementou o Regulamento Geral sobre a Proteção de Dados, que aborda a privacidade e a proteção de dados pessoais – aplicável a todos os indivíduos da União Europeia e do Espaço Econômico Europeu –, como uma forma de proteger as pessoas da exploração de seus dados pessoais. O Brasil seguiu a mesma linha, mas a lei brasileira ainda está em processo de aprovação.

Na Europa, a aprovação desse tipo de legislação é uma primeira medida contra a exploração da vida privada, mas ainda falta tratar do monitoramento da rede e da indução de comportamentos ditada pelos algoritmos, além de um outro tema em discussão nas comissões de ética: o uso da inteligência artificial, por exemplo, em veículos autônomos. A pauta gira em torno das escolhas que um algoritmo deve fazer em caso de acidentes: Ele deve salvar um pedestre, desviando o veículo, mas, no processo, matar o passageiro? Ou deve salvar o passageiro, porém, como resultado, atropelar o pedestre? E quanto às responsabilidades? Quem é o culpado? O programador do algoritmo? O fabricante do carro? O passageiro (que optou por usar um veículo autônomo)?

Nosso amigo Carlos Krebs levantou uma questão essencial: a qual rainha servimos nessa colmeia/formigueiro de dados? A resposta é: à rainha GAFA (Google, Amazon, Facebook e Apple).

O Google lidera nas ferramentas de pesquisa e já diversificou sua gama de investimentos, que vão da robótica a investimentos em startups.

O maior negócio da Amazon, disparado, é o Amazon Web Services (AWS), seu braço voltado à computação na nuvem. Basicamente, são enormes centros de armazenamento, processamento e distribuição de dados espalhados pelo mundo (https://aws.amazon.com/about-aws/global-infrastructure/). São Paulo hospeda o único desses centros na América Latina.

O Facebook é o gigante das redes sociais, com dados suficientes para identificar o sabor do sorvete preferido de uma cidade inteira (para dizer o mínimo).

Já a Apple – a maior empresa de capital aberto do mundo – é presença marcante no mercado de dispositivos eletrônicos de uso pessoal (computadores, tablets, celulares e aparelhos de streaming), por meio dos quais transitam diariamente dados de milhões e milhões de pessoas. Além disso, outros investimentos importantes da empresa são nas áreas de veículos elétricos (que, possivelmente, também virão a ser autônomos) e de fornecimento de energia elétrica (a Apple Energy, especializada em energia solar).

De uma forma ou de outra, essas quatro grande empresas revolucionaram a maneira de tratar dados e informações, o que criou novas demandas e permitiu a emergência de outras empresas entre as grandes, que desenvolvem os aplicativos, os programas e softwares que são utilizados no processamento desses exabytes de dados. Aliás, a tendência de uniformização do setor de informática acabou levando à consolidação e ao monopólio do mercado por grandes empresas, com direito a muita terceirização em vários níveis.

O Big Data orienta o capitalismo num outro sentido, mais agressivo e ainda mais abstrato, no qual a financeirização do sistema econômico se eleva exponencialmente, sistema esse que ainda não se recuperou da última crise financeira há dez anos. Infelizmente, as tecnologias evoluem, mas o ser humano continua o mesmo.

Obs.: Obrigada a Ana Tomazini, Yorkshire Tea e Carlos Krebs.

 

Facebook Comments

Redação D.E.

Redação do Duplo Expresso - onde "a verdade chega primeiro". Bem... às vezes primeiro, segundo, terceiro e... último! Único! rs

Redação D.E. tem 1649 posts e contando. Ver todos os posts de Redação D.E.