BANCO DE DADOS

Banco de dados (ou base de dados), é um conjunto de registros dispostos em estrutura regular que possibilita a reorganização dos mesmos e produção de informação. Um banco de dados normalmente agrupa registros utilizáveis para um mesmo fim. Os bancos de dados são utilizados em muitas aplicações, abrangendo praticamente todo o campo dos programas de computador. Os bancos de dados são o método de armazenamento preferencial e baseiam-se em tecnologias padronizadas de bancos de dados. Modelos de bancos de Dados • Modelo Plano • Modelo em Rede • Bases de dados relacionais • Modelo Relacional • Modelo Orientado a Objetos Sistemas Gerenciadores de Bancos de dados são usados em muitas aplicações, enquanto atravessando virtualmente a gama inteira de software de computador. Os Sistemas Gerenciadores de Bancos de dados são o método preferido de armazenamento/recuperação de dados/informações para aplicações multi-usuárias grandes onde a coordenação entre muitos usuários é necessária. O primeiro Sistema Gerenciador de Banco de Dados (SGBD) comercial surgiu no final de 1960 com base nos primitivos sistemas de arquivos disponíveis na época, os quais não controlavam o acesso concorrente por vários usuários ou processos. Os SGBDs evoluíram desses sistemas de arquivos de armazenamento em disco, criando novas estruturas de dados com o objetivo de armazenar informações. Com o tempo, os SGBD’s passaram a utilizar diferentes formas de representação, ou modelos de dados, para descrever a estrutura das informações contidas em seus bancos de dados. Atualmente, os seguintes modelos de dados são normalmente utilizados pelos SGBD’s: modelo hierárquico, modelo em redes, modelo relacional (amplamente usado) e o modelo orientado a objetos. Data Warehouse, (armazém de dados) é um sistema de computação utilizado para armazenar informações relativas às atividades de uma organização em bancos de dados, de forma consolidada. Data Mining (Mineração de dados) é o processo de varrer grandes bases de dados a procura de padrões como regras de associação, seqüências temporais, para classificação de itens ou agrupamento. Utilização Os bancos de dados são utilizados em muitas aplicações, abrangendo praticamente todo o campo dos programas de computador. Os bancos de dados são os métodos de armazenamento preferencial e baseiam-se em tecnologias padronizadas de bancos de dados. Um banco de dados é um conjunto de informações com uma estrutura regular. Um banco de dados é normalmente, mas não necessariamente, armazenado em algum formato de máquina legível para um computador. Há uma grande variedade de bancos de dados, desde simples tabelas armazenadas em um único arquivo até gigantescos bancos de dados com muitos milhões de registros, armazenados em salas cheias de discos rígidos. Bancos de dados caracteristicamente modernos são desenvolvidos desde os anos da década de 1960. Um pioneiro nesse trabalho foi Charles Bachman. Apresentações dos dados A apresentação dos dados geralmente é semelhante à de uma planilha eletrônica, porém os sistemas de gestão de banco de dados possuem características especiais para o armazenamento, classificação, gestão da integridade e recuperação dos dados. Com a evolução de padrões de conectividade entre as tabelas de um banco de dados e programas desenvolvidos em linguagens como Java, Delphi, Visual Basic, C++ etc. A apresentação dos dados, bem como a navegação, passou a ser definida pelo programador ou o designer de aplicações. Como hoje em dia as maiorias das linguagens de programação fazem ligações a bancos de dados, a apresentação destes tem ficado cada vez mais a critério dos meios de programação, fazendo com que os bancos de dados deixem de restringir-se às pesquisas básicas, dando lugar ao compartilhamento, em tempo real, de informações, mecanismos de busca inteligentes e permissividade de acesso hierarquizada Modelos de base de dados O modelo plano (ou tabular) consiste de matrizes simples, bidimensionais, compostas por elementos de dados: inteiros, números reais, etc. Este modelo plano é a base das planilhas eletrônicas. Bases de dados relacionais consistem principalmente de três componentes: uma coleção de estruturas de dados, nomeadamente relações, ou informalmente tabelas; uma coleção dos operadores, a álgebra e o cálculo relacionais; e uma coleção de restrições da integridade, definindo o conjunto consistente de estados de base de dados e de alterações de estados. As restrições de integridade podem ser de quatro tipos: domínio (também conhecidas como type), atributo, relevar (variável relacional) e restrições de base de dados. Diferentemente dos modelos hierárquico e de rede, não existem quaisquer apontadores, de acordo com o Princípio de Informação: toda informação tem de ser representada como dados; qualquer tipo de atributo representa relações entre conjuntos de dados. As bases de dados relacionais permitem aos utilizadores (incluindo programadores) escreverem consultas (queries) que não foram antecipadas por quem projetou a base de dados. Como resultado, bases de dados relacionais podem ser utilizadas por várias aplicações em formas que os projetistas originais não previram o que é especialmente importante em bases de dados que podem ser utilizadas durante décadas. Isto tem tornado as bases de dados relacionais muito populares no meio empresarial. O modelo relacional é uma teoria matemática desenvolvida por Edgard Frank Codd, matemático e pesquisador da IBM, para descrever como as bases de dados devem funcionar. Embora esta teoria seja a base para o software de bases de dados relacionais, muito poucos sistemas de gestão de bases de dados seguem o modelo de forma restrita ou a pé da letra - lembre-se das 13 leis do modelo relacional - e todos têm funcionalidades que violam a teoria, desta forma variando a complexidade e o poder. A discussão se esses bancos de dados merecem ser chamados de relacional ficou esgotada com o tempo, com a evolução dos bancos existentes. Os bancos de dados hoje implementam o modelo definido como objeto-relacional. Exemplo Modelo Relacional: ID Cliente ID Taxa Nome Endereço [Mais campos....] ==================================================================================================================================== 1234567890 555-5512222 João Carlos Rua bigodone, 120 ... 2223344556 555-5523232 Dorotéia Santos Avenida barbeiro,12 ... 3334445563 555-5533322 Lisbela da Cruz Rua dos bigodes,123 ... 4232342432 555-5325523 E. F. Codd Rua do gilete,51 ... Tabela 1 2.3.1 Modelo Orientado a Objetos Os bancos de dados orientados a objeto começaram a se tornar comercialmente viáveis em meados de 1980. A motivação para seu surgimento está em função dos limites de armazenamento e representação semântica impostas no modelo relacional. Alguns exemplos são os sistemas de informações geográficas (SIG), os sistemas CAD e CAM, que são mais facilmente construídos usando tipos complexos de dados. A habilidade para criar os tipos de dados necessários é uma característica das linguagens de programação orientadas a objetos. Contudo, estes sistemas necessitam guardar representações das estruturas de dados que utilizam no armazenamento permanente. A estrutura padrão para os bancos de dados orientados a objetos foi feita pelo Object Database Management Group (ODMG). Esse grupo é formado por representantes dos principais fabricantes de banco de dados orientados a objeto disponíveis comercialmente. Membros do grupo têm o compromisso de incorporar o padrão em seus produtos. O termo Modelo Orientado a Objetos é usado para documentar o padrão que contém a descrição geral das facilidades de um conjunto de linguagens de programação orientadas a objetos e a biblioteca de classes que pode formar a base para o Sistema de Banco de Dados. Quando os bancos de dados orientados a objetos foram introduzidos, algumas das falhas perceptíveis do modelo relacional pareceram ter sido solucionadas com esta tecnologia e acreditava-se que tais bancos de dados ganhariam grande parcela do mercado. Hoje, porém, acredita-se que os Bancos de Dados Orientados a Objetos serão usados em aplicações especializadas, enquanto os sistemas relacionais continuarão a sustentar os negócios tradicionais, onde as estruturas de dados baseadas em relações são suficientes. O diagrama de classes UML serve geralmente como o esquema para o modelo de dados orientado a objetos. Projeto de banco de dados Todo bom sistema de banco de dados deve apresentar um projeto, que visa a organização das informações e utilização de técnicas para que o futuro sistema obtenha boa performance e também facilite infinitamente as manutenções que venham a acontecer. O projeto de banco de dados se dá em duas fases: Modelagem conceitual; Projeto lógico. Estas duas etapas se referem a um sistema de banco de dados ainda não implementado, ou seja, que ainda não exista, um novo projeto. Para os casos em que o banco de dados já exista, mas é um sistema legado, por exemplo, ou um sistema muito antigo sem documentação, o processo de projeto de banco de dados se dará através da utilização de uma técnica chamada de Engenharia Reversa Modelo conceitual É a descrição do BD de maneira independente ao SGBD, ou seja, define quais os dados que aparecerão no BD, mas sem se importar com a implementação que se dará ao BD. Desta forma, há uma abstração em nível de SGBD. Uma das técnicas mais utilizadas dentre os profissionais da área é a abordagem entidade-relacionamento (ER), onde o modelo é representado graficamente através do diagrama entidade-relacionamento (DER). Modelo Lógico Descreve o BD no nível do SGBD, ou seja, depende do tipo particular de SGBD que será usado. Não podemos confundir com o Software que será usado. O tipo de SGBD que o modelo lógico trata é se o mesmo é relacional, orientado a objetos, hierárquico, etc. Abordaremos o SGBD relacional, por serem os mais difundidos. Nele, os dados são organizados em tabelas. Exemplos de tabelas em um SGBD relacional 5 Aplicações de bancos de dados Sistemas Gerenciadores de Bancos de dados são usados em muitas aplicações, enquanto atravessando virtualmente a gama inteira de software de computador. Os Sistemas Gerenciadores de Bancos de dados são o método preferido de armazenamento/recuperação de dados/informações para aplicações multi-usuárias grandes onde a coordenação entre muitos usuários é necessária. Até mesmo usuários individuais os acham conveniente, entretanto, muitos programas de correio eletrônico e organizadores pessoais estão baseados em tecnologia de banco de dados standard.

DATA WAREHOUSE

Data Warehouse que pode ser definido como uma coleção de dados, orientados por assunto, integrados, variáveis com o tempo e não voláteis, para dar suporte ao processo de tomada de decisão. Os Data Warehouse surgiram com o objetivo de fornecer os subsídios necessários para a transformação de uma base de dados de uma organização de OLTP (On-Line Transaction Processing) para OLAP (On Line Analytical Processing) e, assim, providenciar os elementos necessários a quem toma as decisões nas organizações. Principais Características: • Orientado por assunto; • Integrado • Variável no tempo; • Não volátil Passos Para a Elaboração de um Data Warehouse 1º - Disponibilizar resultados a curto prazo 2º - Integrar os sistemas 3º - Escolher o banco de dados 4º - Escolher a ferramenta a ser utilizada 5º - Construir visando espansão 6º - Manter o sistema aberto a mudanças 7º - Disponibilizar os equipamentos adequados O Data Warehouse surgiram com o objetivo de fornecer os subsídios necessários para a transformação de uma base de dados de uma organização de OLTP (On-Line Transaction Processing: Processamentos que executam as operações do dia-a-dia da organização) para OLAP (On-Line Analytical Processing: Processamentos que suportam a tomada de decisões) e, assim, providenciar os elementos necessários a quem toma as decisões nas organizações. 2 Descrições das Principais Características Conforme já descrito, o Data Warehouse (DW) possui um conjunto de características que o distingue de outros ambientes de sistemas convencionais: - Orientado Por Assunto: o DW está orientado em torno do principal assunto da organização, armazenando informações agrupadas por assuntos de interesse da empresa que são considerados mais importantes, sendo estes chamados de processos de negócio de um empreendimento. - Integrado: é uma das principais características de um DW. Em um Data Warehouse os dados devem ser transformados em formatos comuns de medida referência e armazenamento para que possam ser aproveitados. - Variável no Tempo: Os dados de um Data Warehouse são precisos em relação ao tempo e representam resultados operacionais do momento em que foram capturados. A cada mudança, uma nova entrada é criada, ou seja, os - Não Volátil: os dados após serem integrados, são carregados e armazenados no banco de dados analítico, possibilitando ao usuário realizar apenas consultas e geração de relatórios necessários à tomada de decisão, não permitindo, portanto atualizações nos mesmos, apenas acesso de “leitura”. dados não são atualizáveis. Passos Para a Elaboração de uma Data Warehouse Data Warehouse (DW) não é um produto que se compra, mas sim um projeto que envolve a análise e implementação, com a participação de várias tecnologias. Os sete passos para a criação de um DW, que pode ser inicialmente uma Data Mart (assunto específico) até chegar ao DW no nível corporativo, são: 1° Passo - Disponibilizar resultados em curto prazo. Os primeiros resultados devem estar disponíveis em curto prazo. É importante traduzir rapidamente as necessidades do negócio em uma especificação que possa ser construída em etapas. Minimiza riscos e o tempo de apresentação dos resultados iniciais. 2° Passo - Integrar os sistemas. O desafio principal deste passo é o de conseguir integrar os diversos sistemas da organização. Assim, os Dados de produção e das fontes externas precisam ser mapeados para o modelo de dados do DW. Estas tarefas terão de ser feitas com sincronismo, de forma a evitar problemas de acesso aos dados e também para conseguir fazer devida separação entra os dados operacionais e os dados de tomada de decisão. 3° Passo - Escolher o Banco de Dados. A escolha do banco de dados de suporte ao DW necessita ser criteriosa, ao nível do desempenho na carga e indexação dos dados, tempo de resposta, capacidade de armazenamento, paralelismo, escalabilidade. 4° Passo - Escolher a ferramenta a ser utilizada Considerar as ferramentas disponíveis no mercado. Estas devem prover, interfaces amigáveis, geração de relatórios, análises multidimensionais, acesso via web e data mining. 5° Passo - Construir visando expansão. Construir um DW que possa ser expandido, mantendo níveis aceitáveis de desempenho até gigabytes. 6° Passo - Manter o sistema aberto para mudanças. Ambiente DW deve ser aberto para permitir que os componentes ou ferramentas identificadas no passo 4 possam ser substituídas por outras mais atuais e eficientes. 7° Passo - Disponibilizar os equipamentos adequados. Considerar o sistema de armazenamento que fisicamente gerência, o tráfego, alocação, backup e a restauração dos dados. Qualquer sistema de Data Warehouse (DW) só funciona e pode ser utilizado plenamente, com boas ferramentas de exploração. Com o surgimento do DW, a tecnologia de Data Mining (mineração de dados) também ganhou a atenção do mercado. Como o DW, possui bases de dados bem organizadas e consolidadas, as ferramentas de Data Mining ganharam grande importância e utilidade. Essa técnica, orientada a mineração de dados, oferece uma poderosa alternativa para as empresas descobrirem novas oportunidades de negócio e acima de tudo, traçarem novas estratégias para o futuro.

DATA MINING

Data Mining consiste em um processo analítico projetado para explorar grandes quantidades de dados (tipicamente relacionados a negócios, mercado ou pesquisas científicas), na busca de padrões consistentes e/ou relacionamentos sistemático entre variáveis e, então, validá-los aplicando os padrões detectados a novos subconjuntos de dados. O processo consiste basicamente em 3 etapas: exploração, construção de modelo ou definição do padrão e validação/verificação. Principais Técnicas de Data Mining: Data Mining (DM) descende fundamentalmente de 3 linhagens. A mais antiga delas é a estatística clássica. A segunda linhagem do DM é a Inteligência Artificial (IA). E a terceira e última linhagem do DM é a chamada machine learning, que pode ser melhor descrita como o casamento entre a estatística e a IA. Existem inúmeras ramificações de Data Mining, sendo algumas delas: • Redes neurais • Indução de regras • Árvores de decisão • Análises de séries temporais 1 Definições e Objetivos Data Mining consiste em um processo analítico projetado para explorar grandes quantidades de dados (tipicamente relacionados a negócios, mercado ou pesquisas científicas), na busca de padrões consistentes e/ou relacionamentos sistemático entre variáveis e, então, validá-los aplicando os padrões detectados a novos subconjuntos de dados. O processo consiste basicamente em 3 etapas: exploração, construção de modelo ou definição do padrão e validação/verificação. Talvez a definição mais importante de Data Mining tenha sido elaborada por Usama Fayad: "o processo não-trivial de identificar, em dados, padrões válidos, novos, potencialmente úteis e ultimamente compreensíveis". A premissa do Data Mining é uma argumentação ativa, isto é, em vez do usuário definir o problema, selecionar os dados e as ferramentas para analisar tais dados, as ferramentas do Data Mining pesquisam automaticamente os mesmos a procura de anomalias e possíveis relacionamentos, identificando assim problemas que não tinham sido identificados pelo usuário. Em outras palavras, as ferramentas de Data Mining analisam os dados, descobrem problemas ou oportunidades escondidas nos relacionamentos dos dados, e então diagnosticam o comportamento dos negócios, requerendo a mínima intervenção do usuário. Assim, ele se dedicará somente a ir a busca do conhecimento e produzir mais vantagens competitivas. Como podemos ver, as ferramentas de Data Mining, baseadas em algoritmos que forma a construção de blocos de inteligência artificial, redes neurais, regras de indução, e lógica de predicados, somente facilitam e auxiliam o trabalho dos analistas de negócio das empresas, ajudando as mesmas a conseguirem serem mais competitivas e maximizarem seus lucros. 4.2 Principais Técnicas de Data Mining O Data Mining (DM) descende fundamentalmente de 3 linhagens. A mais antiga delas é a estatística clássica. Sem a estatística não seria possível termos o DM, visto que a mesma é a base da maioria das tecnologias a partir das quais o DM é construído. A segunda linhagem do DM é a Inteligência Artificial (IA). Essa disciplina, que é construída a partir dos fundamentos da heurística, em oposto à estatística, tenta imitar a maneira como o homem pensa na resolução dos problemas estatísticos. E a terceira e última linhagem do DM é a chamada machine learning, que pode ser melhor descrita como o casamento entre a estatística e a IA. Enquanto a IA não se transformava em sucesso comercial, suas técnicas foram sendo largamente cooptadas pela machine learning, que foi capaz de se valer das sempre crescentes taxas de preço/performance oferecidas pelos computadores nos anos 80 e 90, conseguindo mais e mais aplicações devido às suas combinações entre heurística e análise estatística. O DM é um campo que compreende atualmente muitas ramificações importantes. Cada tipo de tecnologia tem suas próprias vantagens e desvantagens, do mesmo modo que nenhuma ferramenta consegue atender todas as necessidades em todas as aplicações. Existem inúmeras ramificações de Data Mining, sendo algumas delas: Redes neurais: são sistemas computacionais baseados numa aproximação à computação baseada em ligações. Nós simples (ou "neurões", "neurônios", "processadores" ou "unidades") são interligados para formar uma rede de nós - daí o termo "rede neural". A inspiração original para esta técnica advém do exame das estruturas do cérebro, em particular do exame de neurônios. Exemplos de ferramentas: SPSS Neural Connection, IBM Neural Network Utility, Neural Ware Neural Work Predict. Indução de regras: A Indução de Regras, ou Rule Induction, refere-se à detecção de tendências dentro de grupos de dados, ou de “regras” sobre o dado. As regras são, então, apresentadas aos usuários como uma lista “não encomendada”. Exemplos de ferramentas: IDIS da Information Discovey e Knowledge Seeker da Angoss Software. Árvores de decisão: baseiam-se numa análise que trabalha testando automaticamente todos os valores do dado para identificar aqueles que são fortemente associados com os itens de saída selecionados para exame. Os valores que são encontrados com forte associação são os prognósticos chaves ou fatores explicativos, usualmente chamados de regras sobre o dado. Exemplos de ferramentas: Alice d’Isoft, Business Objects BusinessMiner, DataMind. Analise de séries temporais: A estatística é a mais antiga tecnologia em DM, e é parte da fundação básica de todas as outras tecnologias. Ela incorpora um envolvimento muito forte do usuário, exigindo engenheiros experientes, para construir modelos que descrevem o comportamento do dado através dos métodos clássicos de matemática. Interpretar os resultados dos modelos requer “expertise” especializada. O uso de técnicas de estatística também requer um trabalho muito forte de máquinas/engenheiros. A análise de séries temporais é um exemplo disso, apesar de freqüentemente ser confundida como um gênero mais simples de DM chamado “forecasting” (previsão). Exemplos de ferramentas: S+, SAS, SPSS. Visualização: mapeia o dado sendo minerado de acordo com dimensões especificadas. Nenhuma análise é executada pelo programa de DM além de manipulação estatística básica. O usuário, então, interpreta o dado enquanto olha para o monitor. O analista pode pesquisar a ferramenta depois para obter diferentes visões ou outras dimensões. Exemplos de ferramentas: IBM Parallel Visual Explorer, SAS System, Advenced Visual Systems (AVS) Express - Visualization Edition. CONCLUSÃO Com a conclusçaõ deste trabalho, pudemos desenvolver melhor os conceitos de Banco de Dados, Data Warehouse e Data Mining. Assim percebemos que a crescente disponibilização de informações que tem sugerido na medida em que mais e mais organizações utilizam novas necessidades de análise das informações disponibilizadas. Um Aplicativo de Banco de dados. é um tipo de software exclusivo para gerenciar um banco de dados. Aplicativos de banco de dados abrangem uma vasta variedade de necessidades e objetivos, de pequenas ferramentas como uma agenda, até complexos sistemas empresariais para desempenhar tarefas como a contabilidade O termo "Aplicativo de Banco de dados" usualmente se refere a softwares que oferecem uma interface para o banco de dados. O software que gerencia os dados é geralmente chamado de sistema gerenciador de banco de dados (SGBD) ou (se for embarcado) de "database engine". Para atender essas novas necessidades, as ferramentas e SAD (Sistema de Apoio a Decisão) têm sido incrementadas com sofisticadas funções de Data Warehouse, tais como, a analise OLAP, formatações de relatórios cada vez mais flexíveis, visualizações 3D, filtros, classificações, alertas, entre outros. De todas essas sofisticações a OLAP é sem duvida a melhor desenvolvida, na medida em que possibilita aos usuários estudar os dados de maneira multidimensional, de forma que os mesmos podem “perfurar” os dados ate aos seus detalhes (Drill Down), ou ainda ver porções sumaria desses dados (Slice-and-Dice). Por sua vez, os sistemas de Data Mining apresentam um sistema alternativo e automático de descobrir padrões nos dados. O DM extremamente adequado para analisar grupos grandes de dados, visto estes serem grandes demais para serem navegados, ou explorados manualmente, ou ainda porque contem dados muito densos ou não intuitivos.