Pesquisar neste blog

15 de out. de 2012

Prevendo o futuro – Parte 01: o que é a análise preditiva?

por developerWorks Brasil
Em: http://imasters.com.br/desenvolvimento/prevendo-o-futuro-parte-01-o-que-e-a-analise-preditiva


Esta é a Parte 1 de uma série de quatro sobre análises preditivas. A Parte 1 fornece uma visão geral da análise preditiva. A Parte 2 dará ênfase às técnicas de modelagem preditiva, que são os algoritmos matemáticos que compõem o núcleo da análise preditiva. A Parte 3 colocará essas técnicas em uso e descreverá a produção de uma solução preditiva. Finalmente, a Parte 4 destacará a implementação da análise preditiva, ou seja, o processo de colocar as soluções preditivas para funcionar.

Introdução à analítica

Hoje vivemos em um mar cada vez maior de dados. Para navegar por ele com segurança, nós usamos a analítica. Sem analítica, nós simplesmente nos afogaríamos, sem saber realmente o que aconteceu ou o que vai acontecer. Neste artigo, vamos nos concentrar no conhecimento obtido a partir da analítica, que podemos classificar como descritiva ou preditiva. Enquanto a analítica descritiva nos permite saber o que aconteceu no passado, a análise preditiva se concentra no que vai acontecer a seguir.
Nossa necessidade de compreender os acontecimentos do passado levou a uma disciplina que hoje chamamos inteligência de negócios. Ela nos permite tomar decisões com base em estatísticas obtidas a partir de dados históricos. Por exemplo:
  1. Quantos clientes têm reclamado ou desistiram devido a atrito nas últimas seis semanas?
  2. Quanto dinheiro foi perdido devido a fraude nos últimos três meses?
  3. Com que frequência os chamados de suporte estão sendo criados?
  4. Onde estão localizados os clientes (talvez mostrado usando o Google Maps)?
A analítica descritiva percorre um longo caminho para a viabilização de decisões de negócio baseadas em fatos e não em sentimentos. No entanto, a analítica descritiva simplesmente não é suficiente. Na sociedade em que vivemos hoje, é imprescindível que as decisões sejam altamente precisas e repetidas. Para isso, as empresas estão usando análise preditiva para literalmente tocar para o futuro e, com isso, definir decisões de negócio e processos.
Como uma disciplina, a Análise Preditiva tem estado presente por muitas décadas. Um tema em destaque na academia por muitos anos, sua relevância no segmento de mercado cresceu juntamente com a quantidade de dados sendo capturados pelas pessoas (por exemplo, a partir de transações online e redes sociais) e sensores (por exemplo, a partir de dispositivos móveis GPS), bem como a disponibilidade do poder de processamento com custo reduzido, seja baseado em Hadoop ou Nuvem.

Dados guiados versus conhecimento de especialista

É fascinante pensar sobre o conhecimento e sobre como transferi-lo e usá-lo. Tradicionalmente, contamos com especialistas do domínio para nos ajudar a aproveitar ao máximo um processo particular. O conhecimento de especialista se baseia na experiência e é usado diariamente por todas as empresas para influenciar as operações do dia a dia. Considerando a forma como podemos converter conhecimento de especialista em um conjunto de regras de negócio, desenvolvemos sistemas com base em decisões para aplicar automaticamente o conhecimento elucidado de especialistas humanos. O IBM ILOG é um excelente exemplo de um sistema que converte conhecimento de especialista em um conjunto de instruções IF-THEN que podemos colocar para funcionar imediatamente.
Por outro lado, o conhecimento controlado por dados, como o seu nome sugere, é baseado nos dados—geralmente, muitos deles. Algumas décadas atrás, uma série de técnicas estatísticas surgiu com a intenção de descobrir padrões de dados normalmente invisíveis ao olho humano. Visto que capturamos dados em um volume cada vez maior hoje, estas técnicas estão se revelando indispensáveis para extrair valor a partir de dados, tornando os processos repetidos e precisos.
O filme O Homem que Mudou o Jogo exemplifica isso muito bem. No filme, um grupo de agentes de recrutamento experientes oferece seu conhecimento em primeira mão e dá palpites sobre quais jogadores devem ser convidados a fazer parte da equipe. Isso é contrastado com uma abordagem voltada para dados em que o conhecimento é extraído a partir dos dados já disponíveis para cada jogador, e uma equipe montada a partir dele. Embora O Homem que Mudou o Jogo escolha um tipo de conhecimento sobre o outro, na maioria dos casos, devemos e usamos o conhecimento de especialistas e o conhecimento voltado a dados juntos.
A analítica é capaz de produzir estatísticas confiáveis, previsões e contagens. É até um sistema baseado em regras, no entanto, para decidir sobre o que fazer com todo o conhecimento que é voltado para dados. Por exemplo, podemos usar uma série de regras para acionar decisões de negócios, dependendo do resultado obtido por um modelo preditivo. Por exemplo, se um modelo existe para prever o risco de perda de clientes ou deserção, podemos colocar regras conhecidas para reduzir a rotatividade no local a fim de definir as decisões de negócios específicas de acordo com diferentes níveis de risco. Portanto, se o risco for alto, podemos dar a um cliente um desconto de 20% em sua próxima compra, mas se o risco for muito alto, podemos, então, dar um desconto de 50%.

O que é um modelo preditivo?

Um modelo preditivo é simplesmente uma função matemática que é capaz de aprender o mapeamento entre um conjunto de variáveis de entrada de dados, geralmente agrupadas em um registro, e uma variável de resposta ou de destino.
Nós nos referimos a este aprendizado como supervisionado porque, durante o treinamento, os dados são apresentados para um modelo preditivo com os dados de entrada e a saída ou resultado desejados. O treinamento é repetido até que o modelo aprenda a função de mapeamento entre as entradas de dados e a saída desejada. Os exemplos de modelos preditivos usando aprendizagem supervisionada incluem redes neurais de retorno de propagação, máquinas de vetor de suporte e árvores de decisão. Um modelo de previsão também pode usar a aprendizagem não supervisionada. Neste caso, ele só é apresentado com os dados de entrada. Sua tarefa é, então, descobrir como os registros de dados de entrada diferentes se relacionam entre si. O armazenamento em cluster é o tipo mais comumente usado de modelo preditivo, que usa aprendizado não supervisionado.
Assim, como exemplo, imagine que deseja criar um modelo preditivo que será capaz de dizer quem, entre os seus clientes, tem maior probabilidade de reclamar (20 ou 50 por cento de desconto para alguém?). Primeiro, volte aos seus dados históricos em busca de recursos que poderia usar para desenvolver um modelo para fazer isso. Ao olhar para seu banco de dados, é possível compilar uma lista de recursos relacionados a atrito para clientes atuais e passados que reclamaram. Pode incluir o número de reclamações nos últimos seis meses, o número de chamados de suporte abertos nas últimas quatro semanas, quantas vezes e quanto dinheiro o cliente gastou na compra de mercadorias ou serviços (online ou na loja) e informações genéricas, como idade, sexo e demografia. Figura 1 mostra dois desses clientes em conjunto com os recursos obtidos para cada um deles. O Cliente 1 é um cliente existente e parece estar satisfeito. O Cliente 2, no entanto, reclamou.
Em um tipo de aprendizagem supervisionada de cenário, como mostrado na Figura 2 , você apresenta todos os dados dos seus clientes para uma técnica preditiva durante o treinamento. Neste caso, a entrada é constituída por todos os recursos apresentados (satisfação relacionada, demográfica, e assim por diante) para cada cliente, bem como o resultado associado. O resultado informa ao modelo preditivo se o registro de dados representa um cliente que migrou ou não para o concorrente. A lógica aqui é que o modelo é capaz de aprender as diferenças, ou padrões, entre os dois grupos: os clientes atuais satisfeitos e clientes que desistiram.
Depois de desenvolver um modelo preditivo, é preciso validá-lo. A questão de validação tenta responder: “Será que funciona?” e, se sim, “Qual é a precisão disso?” Se a resposta à primeira pergunta for um sonoro sim e a resposta à segunda pergunta for altamente preciso, você saberá que o seu modelo funciona e que é capaz de generalizar. Tudo que você precisa agora é torná-lo disponível para a execução. Para isso, precisa ser implementado operacionalmente. Felizmente, existe um padrão chamado PMML (Predictive Model Markup Language) que permite que modelos preditivos se movam facilmente entre diferentes sistemas. Com PMML, podemos usar um aplicativo como o IBM SPSS Statistics para desenvolver e validar um modelo preditivo que podemos, então, salvar como um arquivo PMML. Como tal, podemos fazer o upload dele diretamente em um mecanismo de pontuação, como o mecanismo Zementis ADAPA, onde ele está pronto para ser usado em tempo real. Para obter mais informações sobre o PMML e as tecnologias descritas aqui, consulte Recursos.
Após a implementação, podemos usar o modelo de reclamação para monitorar toda a atividade de clientes existentes. Um bom modelo preditivo é capaz de generalizar seu conhecimento para calcular o risco de reclamação, mesmo para clientes que nunca tiveram reclamações antes. Figura 3 mostra os dados de um cliente, identificados como cliente 3, sendo apresentados ao nosso modelo de reclamação. Se o modelo percebe que um padrão de rotatividade está emergindo para um determinado cliente, que aumentará o seu risco ou saída de acordo até que haja uma decisão de negócio de sua parte para enfrentá-lo. Quando esse cliente em particular está mais uma vez satisfeito com seus produtos e serviços, o risco diminuirá, uma vez que o padrão de rotatividade não é mais detectado.

A importância de bons dados

Meu primeiro impulso em nomear esta seção era chamá-la de “A importância dos dados”, porque sem dados, não há analítica e o importa, a análise preditiva. Durante a minha carreira como um cientista de mineração de dados, eu tenho visto muitas pessoas bem-intencionadas nos negócios em busca de uma solução de análise preditiva para a sua empresa. Enquanto elas sabem que a análise preditiva pode ajudar em seus resultados, elas têm dados insuficientes. Ou seja, não há dados suficientes para um cientista de dados realmente treinar um modelo que faça sentido. Em uma era de Big Data, você pode ser surpreendido como, de fato, frequentemente acontece. Para que determinados modelos preditivos sejam capazes de aprender e generalizar, são necessários milhares e milhares de registros. De acordo com nosso exemplo acima, uma centena de registros contendo os dados dos clientes que reclamaram no passado pode não ser suficiente. Se não houver dados suficientes para serem usados para o treinamento, um modelo pode não ser capaz aprender ou pior, pode ultrapassar. Isso significa que ele aprende tudo sobre os dados fornecidos durante o treinamento, mas é incapaz de generalizar esse conhecimento quando se apresenta com novos dados. Ele é simplesmente incapaz de prever.
Se há dados suficientes disponíveis, então, é uma questão de quanto ele é bom. Isso porque, a qualidade dos dados refletirá diretamente na qualidade do modelo. Para dizer o mínimo: entrou lixo, saiu lixo!
Anos atrás, eu e minha equipe fomos incumbidos de desenvolver um modelo para prever se um determinado processo de fabricação iria resultar em falha ou sucesso. A manufatura levou cerca de oito horas para ser concluída e consumiu uma grande quantidade de recursos. Somente após a conclusão, os engenheiros da empresa de garantia de qualidade foram capazes de determinar se algo dera errado durante a manufatura. Se assim fosse, todo o lote deveria ser desfeito, e um novo começaria novamente do zero. A ideia aqui é que nós poderíamos olhar para os dados obtidos no passado por todas as etapas do processo para lotes que viraram bons e ruins. Então, nós poderíamos treinar um modelo para detectar quando as coisas começam a ficar ruins no início do processo. Tão emocionante como era, nós nunca construímos realmente todos os modelos. Durante a análise dos dados, descobrimos que os dados foram corrompidos ou pior, faltavam algumas das principais fases da manufatura. Mais importante ainda, não foi possível encontrar o resultado, ou a informação que nos permitiria separar os lotes bons dos ruins. Isso significa que não seríamos capazes de usar uma técnica de aprendizagem supervisionada. E, se faltassem partes importantes dos dados de entrada em risco, o uso de uma técnica sem supervisão.
Os dados por si só não se traduzem em valor preditivo. Os dados bons sim.

Aplicativos da análise preditiva

Quando aprendemos primeiro sobre a análise preditiva, eu recebi um livro de Duda, Hart e Stock intitulado Pattern Classification (consulte Recursos). Este livro é hoje considerado uma referência clássica no campo. Nele, os autores desenvolvem um sistema de classificação padrão em torno de uma empresa de processamento de pescado. Em uma fábrica deste tipo, eles usam uma solução preditiva para classificar peixes de entrada em salmão ou robalo, dependendo das características de entrada, tais como duração e intensidade das escamas. Em 2010, fiz uma apresentação na Conferência Rules Fest em San Jose sobre análise preditiva. Na apresentação, intitulada “Follow your Rules, but listen to your Data” (consulte Recursos), Eu usei o mesmo exemplo para mostrar ao público com foco nas regras não só como podemos resolver um problema como este que usa análise preditiva, mas também como a análise preditiva pode trabalhar em conjunto com as regras de negócios para melhorar a tomada de decisão. A ideia, claro, era usar o exemplo de uma maneira semelhante à de Duda, Hart e Stock. Isto é, como um exemplo genérico de como desenvolver e aplicar uma solução preditivo e deixar o público generalizá-lo para outros aplicativos. Em vez disso, neste artigo, eu usei a rotatividade de clientes. De qualquer forma, para que você generalize o conhecimento que obteve até agora para uma série de novos aplicativos, vou descrever abaixo mais maneiras de como a análise preditiva está transformando nosso mundo em um lugar mais inteligente.
Um aplicativo de análise preditiva que tem sido extremamente bem-sucedido há muitos anos é o de detecção de fraudes. Toda vez que você passar o seu cartão de crédito ou usá-lo online, há chances de sua transação estar sendo analisada em tempo real para uma possível fraude. Dependendo do risco percebido, a maioria das instituições implementa um conjunto de regras de negócio que pode até mesmo recusar uma operação de alto risco. Este é o objetivo final da análise preditiva na luta contra o crime, isto é, impedir que isso aconteça, em primeiro lugar.
Em um artigo escrito anteriormente para o developerWorks, listo alguns aplicativos importantes de análise preditiva na assistência médica. A fraude na assistência médica está definitivamente no topo da lista, mas o uso de análise preditiva também está para implementar o cuidado preventivo eficaz. Ao saber que os pacientes têm maior risco de desenvolver uma determinada doença, podemos colocar as medidas preventivas em ação para mitigar o risco e, finalmente, salvar vidas. Ultimamente, a análise preditiva tem sido o centro das atenções em uma competição altamente divulgada em que os dados de histórico pedidos são usados para reduzir o número de reinternações hospitalares (consulte Recursos).
Além disso, as empresas usam a análise preditiva para recomendar produtos e serviços. Hoje em dia, já crescemos para esperar boas recomendações para filmes, livros e músicas das nossas lojas favoritas e comerciantes. Da mesma forma, também estamos experimentando campanhas de marketing que são customizadas cada vez mais aos nossos gostos e preferências, com base, por exemplo, no conteúdo de nossos emails, postagens e pesquisas online.
Outros aplicativos se concentram em dados obtidos a partir de sensores. Por exemplo, podemos usar os dados do dispositivo móvel GPS para prever o trânsito. Como esses sistemas se tornam cada vez mais precisos, seremos capazes de usá-los para alterar as nossas próprias escolhas de transporte. Por exemplo, podemos pegar o trem um dia, se houver previsão de trânsito intenso nas entradas.
Além disso, a disponibilidade de sensores pequenos e com custo reduzido que informam sobre o status atual de estruturas como pontes e edifícios, bem como máquinas, como transformadores de energia, água e bombas de ar, portas e válvulas permitiu o uso de análise preditiva para manter ou fazer alterações em materiais ou processos antes que aconteçam falhas e acidentes. Ao permitir o desenvolvimento de modelos de manutenção preventiva, o uso de dados de sensores é uma forma clara no sentido de ajudar a garantir a segurança. O desastre de derramamento de óleo no Golfo do México em 2010 e o colapso da ponte I-35W sobre o Rio Mississippi em 2007 são apenas dois exemplos de acidentes graves que poderiam ser evitados se houvesse sensores e modelos de manutenção preventiva.

Conclusão

Em um mar de dados cada vez maior, coletados de pessoas e sensores, a análise preditiva fornece ferramentas essenciais de navegação para que as empresas e os indivíduos cheguem ao seu destino com sucesso. Ela faz isso por meio da previsão do que está prestes a acontecer para que se possa responder adequadamente a fim de permanecer no curso mais exato, seguro, repetido, rentável e eficiente.
O uso da análise preditiva já está revolucionando o modo como interagimos com o nosso ambiente. À medida que a quantidade de dados aumenta e melhora a qualidade, auxiliada pela disponibilidade de energia de processamento de custo reduzido, a análise preditiva tende a ser ainda mais difundida do que é hoje. Se já identificou alguns problemas que pretende resolver com a análise preditiva, você concordará que esta não foi uma previsão difícil de ser feita.
***
Faça o download de uma versão experimental gratuita do IBM® Tivoli® Storage Manager FastBack™ V5.5, a solução de software de proteção contínua de dados e recuperação quase instantânea da próxima geração para servidores Windows essenciais para os negócios, escritórios remotos e empresas de pequeno e médio portes.

Recursos

Aprender

Obter produtos e tecnologias
  • IBM SPSS Statistics 20 coloca a energia da análise estatística avançada em suas mãos. Seja um estatístico iniciante ou experiente, seu conjunto abrangente de ferramentas atenderá às suas necessidades.
  • ADAPA é uma plataforma revolucionária de gerenciamento de decisões de análise preditiva, disponível como um serviço na nuvem ou no local. Ela fornece um ambiente seguro, rápido e escalável para implementar seus modelos de mineração de dados e lógica de negócios, e colocá-los em uso.
  • Experimente o IBM ILOG CPLEX Optimization Studio por 90 dias: Desenvolva rapidamente aplicativos baseados em otimização de apoio à decisão.
  • Encontre mais software de avaliação: Faça o download de uma versão experimental, trabalhe com o produto em um ambiente seguro online, ou acesse-o na nuvem.
  • Avalie o IBM WebSphere Application Server: Crie, implante e gerencie aplicativos robustos, ágeis e reutilizáveis de negócios de SOA e serviços de todos os tipos, reduzindo os custos de infraestrutura de aplicativos com o IBM WebSphere Application Server.

Nenhum comentário:

Postar um comentário