• Banco de Dados é uma coleção de dados relacionados a um tópico ou propósito em particular (específico).
• Os registro de empregados em um arquivo, uma coleção de selos em um álbum, uma agenda com os nomes dos gerentes de vendas - cada uma dessas séries de dados é um banco de dados.
• Um banco de dados
• Um conjunto de dados armazenados em tabelas. Cada uma das linhas de uma tabela constitui um registro e cada coluna, um campo no registro, como mostrado no seguinte exemplo: Utilização
• Os bancos de dados são utilizados em muitas aplicações, abrangendo praticamente todo o campo dos programas de computador.
• Há uma grande variedade de bancos de dados, desde simples tabelas armazenadas em um único arquivo até gigantescos bancos de dados com muitos milhões de registros, armazenados em salas cheias de discos rígidos.
• Bancos de dados caracteristicamente modernos são desenvolvidos desde os anos da década de 1960 Apresentações dos dados
• A apresentação dos dados geralmente é semelhante à de uma planilha eletrônica, porém os sistema de gestão de banco de dados possuem características especiais para o armazenamento, classificação, gestão da integridade e recuperação dos dados. Modelos de base de dados
• O modelo plano (ou tabular) consiste de matrizes simples, bidimensionais, compostas por elementos de dados: inteiros, números reais
• Modelo Hierárquico - Uma variação particular deste modelo em rede, o modelo hierárquico, limita as relações a uma estrutura semelhante a uma árvore.
• Modelo relacional - Uma base de dados é uma coleção de dados inter-relacionados com múltiplas utilizações. Uma base de dados relacional é um sistema de gestão de informação relativamente complexo.
• Modelo Orientado a Objetos - Um banco de dados orientado a objetos é um banco de dados em que cada informação é armazenada na forma de objetos.
• Alguns exemplos são os sistemas de informações geográficas (SIG), os sistemas CAD e CAM, que são mais facilmente construídos usando tipos complexos de dados Projeto de banco de dados
• Todo bom sistema de banco de dados deve apresentar um projeto, que visa a organização das informações e utilização de técnicas para que o futuro sistema obtenha boa performance e também facilite infinitamente as manutenções que venham a acontecer.
• O projeto de banco de dados se dá em duas fases: Modelagem conceitual; Projeto lógico.
• Modelagem conceitual - É a descrição do BD de maneira independente ao SGBD, ou seja, define quais os dados que aparecerão no BD, mas sem se importar com a implementação que se dará ao BD. Desta forma, há uma abstração em nível de SGBD.
• Projeto lógico - Descreve o BD no nível do SGBD, ou seja, depende do tipo particular de SGBD que será usado. Não podemos confundir com o Software que será usado. O tipo de SGBD que o modelo lógico trata é se o mesmo é relacional, orientado a objetos, hierárquico, etc.
• Precisamos armazenar o código de identificação, cor e capacidade de passageiros dos veículos que possuímos.
• Para os veículos terrestres, é interessante armazenarmos a quantidade de rodas. Para os aquáticos, o tamanho em pés. Para os aéreos, a forma de propulsão (turbina, hélice, etc.). Aplicações de bancos de dados
• As aplicações de bancos de dados podem ser classificadas em três categorias: orientadas à transações; de suporte à decisão; e para a Internet. A descrição dos dados e o tipo de dados diferem para cada categoria. Na categoria orientada à transação, as transações são curtas como, por exemplo: débito e crédito. No ambiente Internet as transações são mais longas em função da manipulação de diferentes tipos de dados, incluindo objetos multimídia .
DATA WAREHOUSE DEFINIÇÃO
• Histórico – Criado pela IBM na década de 60 com o nome Information Warehouse – Relançado diversas vezes sem grande sucesso – O nome Data Warehouse foi dado por William H. Inmon, considerado o pai desta tecnologia – Tornou-se viável com o surgimento de novas tecnologias para armazenar e processar uma grande quantidade de dados
• O que é? – Sistema que armazena dados históricos usados no processo de tomada de decisão – Integra os dados corporativos de uma empresa em um único repositório
• Para que serve? – Para criar uma visão única e centralizada dos dados que estavam dispersos em diversos BDs – Permite que usuários finais executem consultas, gerem relatórios e façam análises
• BDs usados nas aplicações de negócio são chamados BDs operacionais
• DW é um BD informacional alimentado com dados dos BDs operacionais da empresa – Disponibiliza dados atuais e a dados históricos – Dados podem ser sumarizados (condensados) para que sejam analisados – Contém também metadados, que são dados sobre os dados armazenados no DW
• Então o Data Warehouse é apenas um BD que contém também dados históricos?
• Para que seja considerado um Data Warehouse, um banco de dados deve: – Coletar dados de várias fontes – Dados coletados devem ser transformados para que haja uma visão única dos dados – Dados devem ser usados por aplicativos para obter informações que dêem apoio à decisão
DATA WAREHOUSE PRINCIPAIS CARACTERISTICAS
• De acordo com a definição dada por Inmon, um Data Warehouse deve ser: – Orientado a assunto – Integrado – Não-volátil – Variável com o tempo
• Orientação a assunto – Os dados em um DW são organizados de modo a facilitar a análise dos dados – Dados são organizados por assunto e não por aplicação, como em BDs operacionais
• Integração – Dados de um DW provém de diversas fontes – Dados podem ser sumarizados ou eliminados – Formato dos dados deve ser padronizado para uniformizar nomes, unidades de medida, etc.
• Não-Volátil – Dados não são mais alterados depois de incluídos no DW – Operações no DW • Em um BD operacional é possível incluir, alterar e eliminar dados
• Já no DW é possível apenas incluir dados – Garante que consultas subseqüentes a um dado produzirão o mesmo resultado
• Variável com o Tempo – Os dados no DW são relativos a um determinado instante de tempo
DATA MINING DEFINIÇÃO
• O que é Data mining: – “Data mining (mineração de dados), é o processo de extração de conhecimento de grandes bases de dados, convencionais ou não. – Utiliza técnicas de inteligência artificial que procuram relações de similaridade ou discordância entre dados. – Seu objetivo é encontrar, automaticamente, padrões, anomalias e regras com o propósito de transformar dados, aparentemente ocultos, em informações úteis para a tomada de decisão e/ou avaliação de resultados.
• Exemplo Conclusões: Produtos azuis são de alto lucro ou Arizona é um lucro baixo
• Uma empresa utilizando data mining é capaz de: – Criar parâmetros para entender o comportamento do consumidor; – Identificar afinidades entre as escolhas de produtos e serviços; – Prever hábitos de compras; – Analisar comportamentos habituais para detectar fraudes.
• Data mining X Data warehouse:
– Data mining Þ extração inteligente de dados;
– Data warehouse Þ repositório centralizado de dados;
– Data mining não é uma evolução do Data warehouse;
– Data mining não depende do Data warehouse, mas obtém-se melhores resultados quando aplicados em conjunto;
– Cada empresa deve saber escolher qual das técnicas é importante para o seu negócio. (Uma, outra ou as duas);
– Data Warehouse aliado a ferramentas estatísticas desempenham papel semelhante ao data mining, mas não descobrem novos padrões de comportamento. (a não ser empiricamente).
• Evolução até o data mining
DATA MINING TECNICAS
Árvores de decisão: (ID3) - 1o Exemplo – Representações simples do conhecimento – Utilização de regras condicionais – A partir de um conjunto de valores decide SIM ou NÃO – Mais rápida e mais compreensível que redes neurais – Exemplo: Sair ou não de acordo com o tempo
• Redes Neurais: – É uma abordagem computacional que envolve desenvolvimento de estruturas matemáticas com a habilidade de aprender. (modelo do sistema nervoso para aprender) – Estruturalmente, uma rede neural consiste em um número de elementos interconectados (chamados neurônios/nós), que possuem entrada, saída e processamento. – São organizados em camadas que aprendem pela modificação da conexão. – Arquitetura: