Thriving On Data

Informatie is voor elk bedrijf een noodzakelijke levensvoorwaarde. Informatie over het reilen en zeilen binnen het bedrijf, informatie over ontwikkelingen buiten het bedrijf. Een bedrijf dat in staat is om alle benodigde en relevante informatie op tijd ter beschikking te krijgen is intelligenter dan andere bedrijven die dat niet of minder lukt, en heeft betere kansen om te overleven. Het loont dus de moeite om te investeren in informatie. Eenvoudig is dat echter niet. We leven in een informatierijke tijd, waarin grote hoeveelheden informatie beschikbaar zijn, die ook snel verandert. Op dit gebied is innovatie met ICT dus dringend gewenst.





Datamining


Datamining is het gericht zoeken naar (statistische) verbanden in grote verzamelingen gegevens voor wetenschappelijke of commerciële doeleinden. Zo'n verzameling gegevens kan gevormd worden door gebeurtenissen in een praktijksituatie te registreren (aankoopgedrag van consumenten, symptomen bij patiënten, et cetera) of door de resultaten van eerder uitgevoerde wetenschappelijke onderzoeken met elkaar te vergelijken en te herinterpreteren.
De naam komt voort uit de overeenkomsten tussen het zoeken naar statistische verbanden en het graven (mining) naar iets waardevols in een grote berg. Datamining helpt bedrijven en wetenschappers om de essentiële informatie uit gegevens te selecteren. Er kan een model mee gecreëerd worden dat het gedrag van mensen of systemen kan voorspellen. Datamining wordt vooral toegepast bij het opstellen van rapportages en de uitvoering van controle werkzaamheden. Datamining geeft veel zekerheid ten aanzien van de juistheid en volledigheid van gegevens. Een trend is dat steeds meer branche- en productspecifieke addons voor dataminingtools worden ontwikkeld, waarmee de toegankelijkheid van datamining wordt vergroot. Datamining vereist een hoge mate van kennis, ervaring, standaardisatie en discipline. Dit zijn randvoorwaarden voor een succesvol dataminingstraject (ook bestandsonderzoek
genoemd). Het bestandsonderzoek dient voldoende te worden gedocumenteerd ter onderbouwing van de conclusies en er zijn werkafspraken binnen organisaties nodig om de reproduceerbaarheid te waarborgen. Er valt een efficiencyvoordeel te behalen in de ontwikkeling van specifieke applicaties binnen dataminingtools voor het opstellen van standaardrapportages en periodieke controles.






Datamining Process


Een datamining proces bestaat uit een aantal stappen. Het proces verandert echter elke keer. Dit komt doordat deze afhangt van het doel waarvoor datamining wordt toegepast en dat er sprake kan zijn van een herhalend proces. Het herhalen van een proces komt voornamelijk door, bijvoorbeeld meerdere technieken op de dataset (collectie van gegevens) los te laten of doordat er een stap terug moet worden gedaan. Bij een datamining proces kunnen grofweg de volgende stappen worden onderscheiden:

Fase 1: Opstart fase.

Datamining werkt pas optimaal wanneer er sprake is van een specifiek probleem dat moet worden opgelost. Het is raadzaam om voor de daadwerkelijke start van de datamining proces een plan van aanpak op te stellen, waarin een omschrijving van het probleem, kosten/baten-analyse, doelen en succescriteria worden opgenomen.

Fase 2: Gegevensoriëntatie.

Deze fase omvat het selecteren, verkennen en het omschrijven van de data (gegevens), om het probleem op te kunnen lossen. Een datamining proces bestaat uit een aantal stappen. Het proces verandert echter elke keer. Dit komt doordat deze afhangt van het doel waarvoor datamining wordt toegepast en dat er sprake kan zijn van een herhalend proces. Het herhalen van een proces komt voornamelijk door, bijvoorbeeld meerdere technieken op de dataset (collectie van gegevens) los te laten of doordat er een stap terug moet worden gedaan. Bij een datamining proces kunnen grofweg de volgende stappen worden onderscheiden:

Stap 3: Gegevens preparatie.

Als eenmaal de correcte gegevens zijn geselecteerd, moeten ze gereed worden gemaakt voor de werkelijke analyse. De gegevens dienen opgeschoond te worden en eventueel worden verrijkt. Hou er rekening mee dat er in de meeste databases redelijk wat ruis en rommel voorkomt.

Stap 4: Modellerings fase.

Deze fase omvat de beoordeling en het kiezen van de beste model op basis van de voorspellende prestaties. Er zullen datamining algoritmes op de gegevens worden losgelaten. De datamining algoritme zal willekeurige factoren nemen en probeert vervolgens aan te tonen dat deze gerelateerd zijn aan een andere factor. Zo’n poging wordt een veronderstelling genoemd. Het systeem die de algoritmes toepast heeft de capaciteit en de tijd om een groot aantal van deze veronderstellingen uit te proberen en er een score aan toe te kennen. Vervolgens zal het systeem de scores vergelijken en veder gaan met de beste veronderstelling, omdat deze waarschijnlijk de grootste invloed heeft op het resultaat. Dit proces van vergelijken en verbeteren wordt ook wel “Survival of the Fittest” genoemd. Tenslotte worden de beste veronderstellingen aan elkaar gekoppeld, om vervolgens de onderlinge samenhang te herkennen. Het eindresultaat wordt door de algoritme weergegeven in de vorm van een voorspellend model.

Stap 5: Evaluatie fase.

In deze fase moet er een terugkoppeling worden gedaan. Is het vereiste doel bereikt? Zijn er herhalingen nodig? En wat is de kwaliteit van de resultaten? Het is nuttig om in deze fase een document op te stellen waarin de volgende aandachtspunten worden beschreven, namelijk de kwaliteit, het traject en het verloop van de uitgangsgegevens. Waar zijn er fouten ontstaan?

Stap 6: Actie fase.

In deze fase dient men een strategie te bepalen voor de gevonden, betrouwbare resultaten. De informatie moet bij de juiste personen terechtkomen. Overigens moet men acties ondernemen om het probleem op te lossen en dat het de meeste efficiënte en effectieve acties zijn.
Datamining omvat aldus de volgende fasen: het begrijpen van de business, het begrijpen van de gegevens, de voorbereiding van de gegevens, de modellering, de evaluatie en het ondernemen van actie aan de hand van de eindresultaten.
tod1.gif







Valkuil


Een valkuil die bij datamining op de loer ligt is de drogreden: als je maar genoeg gegevens analyseert zul je vroeg of laat ongetwijfeld een statistische correlatie tussen twee variabelen vinden, maar dat hoeft niet te betekenen dat er ook een oorzakelijk verband bestaat tussen de twee betreffende variabelen.
Datamining zou bijvoorbeeld kunnen aantonen dat zowel het aantal ooievaars als het aantal geboorten in de westerse wereld sterk is afgenomen in de afgelopen honderd jaar, maar de conclusie dat ooievaars dus iets met baby's te maken hebben zou uiteraard voorbarig zijn. De kans dat datamining onjuiste conclusies oplevert kan verkleind worden door bij het toepassen altijd te werken volgens de wetenschappelijke methode, die voorschrijft dat er eerst een falsifieerbare hypothese opgesteld moet worden en dat vervolgens uitsluitend die hypothese getoetst dient te worden.





Technieken

Datamining wordt bijgestaan door verscheidene technieken. In deze sectie zullen we enkele van deze technieken behandelen.

Beslissingsbomen

"Een Beslissingsboom is een voorspellend model dat een voorspelling doet op basis van een reeks beslissingen. Elke tak van de boom is een classificatievraag en de bladeren van de boom stellen partities van degegevensverzameling met hun respectievelijke classificaties voor."
Een van de grote voordelen van een beslissingsboom is dat het model eenvoudig wordt opgebouwd en het zeer gemakkelijk te begrijpen is. Vanwege dit voordeel, zijn beslissingsbomen in de bedrijfssector de meest gebruikte dataminingtechniek. Beslissingsbomen blinken namelijk uit in complexe algoritmes die in praktijk moeten gebracht worden. Een nadeel is dat ze niet toepasbaar zijn op simpele problemen of algoritmes en dat er soms storende gegevens worden gebruikt, waardoor dit tot een onjuist antwoord kan leiden.
Een beslissingsboom is voor datamining geen nieuw begrip. Het bestaat namelijk al zo'n 20 jaar. Het eerste beslissingsboom-algoritme werd geïntroduceerd door J. Ross Quinlan onder de naam van ID3. Sindsdien is ID3 meermaals aangepast en verbeterd. Het is ook grootschaliger geworden. Binnen ID3 zijn er 2 belangrijke technologieën, namelijk CART en CHAID.

Neurale netwerken

Een neuraal netwerk is in enige mate gebaseerd op de organisatie van het menselijke brein en de manier waarop de hersenen leren. Er zijn twee belangrijke structuurelementen in het neurale netwerk:
  • het knooppunt: Te vergelijken met de neuron in een menselijk brein.
  • de koppeling: Te vergelijken met de verbindingen tussen deze neuronen.
Neurale netwerken zijn zeer belangrijk geweest in de beginfase van de datamining-technologie. Een belangrijk voordeel van neurale netwerken is dat ze zeer nauwkeurig te werk gaan binnen hun voorspellingen en dat ze op een groot aantal verschillende problemen toegepast kunnen worden. Ze hebben een aantal belangrijke beperkingen op het vlak van de trainingstijd, duidelijkheid en dimensionaliteit. Ze bieden ook geen korte en snelle oplossingen. De eerste ideeën over neurale netwerken werden gevormd tijdens de Tweede Wereldoorlog door McCulloch en Pitts. Tegenwoordig nemen neurale netwerken belangrijke taken op zich binnen de bedrijfswereld. Er wordt namelijk heel veel in deze datamining-techniek geïnvesteerd.
Er zijn verschillende soorten neurale netwerken. Enkele belangrijke soorten zijn: backpropagation, Kohonen feature maps, netwerken met radiale basisfuncties.

Rule induction

Rule induction is een vorm van datamining die het meest overeenkomt met het proces van datamining. Via rule induction worden er interessante vaststellingen blootgesteld uit grote databases die voordien nog niet bekend waren. Zo worden er voorspellende patronen teruggevonden in bijvoorbeeld het koopgedrag van onze samenleving. Door rule induction kunnen bedrijven hier op inspelen. Via rule induction kunnen we informatie weergeven in een eenvoudige regel, zoals: 'Als dit, dan dit'. Enkele voorbeelden: 'Als brood, dan kaas'; 'Als koffie, dan melk'; enz..
Rule induction biedt dus tal van voordelen. Het proces kent namelijk een automatische werkwijze, het vindt patronen terug die belangrijk kunnen zijn voor voorspellingen, het haalt alle patronen uit de inhoud van databases. Dit laatste vormt meteen één van de grootste nadelen van rule induction: doordat alle patronen uit de gegevens worden gehaald, moet men daarna nog een tweede datamining-ronde uitvoeren om uit de lijst van patronen de belangrijkste ondervindingen te halen. Hierdoor kunnen simpele voorspellingen heel complex worden.

Case Based Redeneren

Deze benadering gebruikt cases uit het verleden om er bepaalde patronen in te herkennen.

Intelligente Agenten

Hierbij wordt informatie van het internet gehaald en van databases die op intranet gebaseerd zijn.





Toepassingsgebieden.

Datamining kent verschillende toepassingsgebieden. Het wordt onder andere toegepast op de basket-analyse, fraude detectie en databasemarketing.

Basket-analyse:


Bij basket-analyse gaat het om het analyseren van de diverse aankopen bij de supermarkt, oftewel de inhoud van een boodschappen mandje. De meest bekendste voorbeeld hiervan is dat jonge vaders vlak voor het weekend gelijktijdig luiers en bier aanschaffen. Op het eerste gezicht ligt deze relatie niet voor de hand, maar in de praktijk blijkt het er zeker te zijn. In een online supermarkt (e-commerce website) zijn de mogelijkheden nog vele malen groter. Klanten die net een bepaald artikel online hebben gekocht, krijgen meestal een gepersonaliseerd lijstje aangeboden met aanbiedingen of suggesties. (‘Mensen die dit boek bestelde, kochten ook….’)
De datamining applicatie genereert de aanbiedingen of suggestie lijstje aan de hand van wat het heeft geleerd van de transacties of historische koopgedrag van andere consumenten met een vergelijkbaar klant profiel.

Fraude detectie:


Creditcards hebben ons leven een stuk gemakkelijker gemaakt. Je kunt er mee betalen in restaurants, winkels,een vlucht of hotel boeken, online aankopen doen en wat nog meer niet. Een creditcard is zeer gemakkelijk in de omgang: soms is alleen het kaartnummer en de verloop datum al genoeg om een transactie te laten voldoen. Het is dan ook niet verrassend dat er gemakkelijk mee valt te frauderen. Het is voor creditcard instanties van groot belang om in een vroegtijdig stadium frauduleus gebruik van een creditcard te onderkennen.In Groot-Brittannië wordt bijvoorbeeld elke 9 seconden gefraudeerd met een creditcard, elke dag gaat er circa 2 miljoen euro verloren aan creditcardfraude en bijna één op de drie creditcard gebruikers is wel eens getroffen door creditcardfraude. Desalniettemin worden creditcards beschouwd als veilig in vergelijking met contant geld. Een datamining applicatie bij een creditcard instantie bekijkt voortdurend in real-time alle transacties en blokkeert transacties automatisch als ze onraad ruiken. De applicatie leert bijvoorbeeld het produceren van fraude waarschuwingen en het automatisch herkennen van nieuwe fraude patronen die gebaseerd zijn op de in het verleden gemaakte transacties die frauduleus bleken te zijn. Voor elke creditcard wordt er een profiel bij gehouden met enkele typische eigenschappen, zoals: gemiddeld aantal transacties per week, kenmerkende tijd en plaats van de transactie en de gemiddelde transactie bedragen.

Databasemarketing:


Bij de laatste toepassingsgebied draait het allemaal om het kennen van de klant. Het vinden van profielen van klanten, met als doel dat de juiste persoon wordt bereikt via het juiste kanaal met de juiste boodschap op het juiste moment. Om dit doel te realiseren moet men datamining toepassen op de vaak enorme databases met klantgegevens. Datamining in vorm van het continue analyseren van klantgegevens, heeft binnen de databasemarketing een sleutelrol in de overgang naar meer directe vormen van communicatie, zoals op de consument toegesneden reclameboodschappen.





Datawarehouse


De eerste stappen richting datawarehousing werden gezet in de jaren '60. Databases waren destijds georganiseerd in verschillende masterfiles. Dit zijn collecties van queries met een bepaald onderwerp. Deze masterfiles werden opgeslagen op magneetband. De gegevens werden verwerkt door middel van simpele applicaties. Deze applicaties hield men bij op ponskaarten.
Halverwege de jaren '60 kende men echter een zodanige wildgroei aan masterfiles, dat het systeem te maken kreeg met efficiëntieproblemen. Wanneer men iets op een magneetband wou lezen, moest men eerst alle data die eraan voorafging doorlopen. Hierdoor verliep het verwerken van grote hoeveelheden informatie te traag.
In 1970 ontwikkelde men dan het DASD (Direct Access Storage Device), beter gekend als disk storage. Bij deze techniek hoefde men niet eerst alle voorgaande data te doorlopen om een bepaald deel van de data te lezen. In deze periode is ook het DataBase Management System (DBMS) ontwikkeld. DBMS organiseerde en indexeerde de data op een DASD. Zo ontstond de database.
Halverwege de jaren '70 wilde men de databases ook online beschikbaar maken (via intranet). De techniek die men hiervoor gebruikte, was high-performance online transaction processing. Dit maakte onder meer reserveringssystemen en online bankdiensten mogelijk.
De volgende stap richting het datawarehouse kwam er in de vorm van extract programming. Het extract programma doorloopt een file of database aan de hand van bepaalde selectiecriteria. De data die aan deze criteria voldoen, worden overgedragen naar een andere file of database. Het extract programma kende een snelle verspreiding in de jaren '90.




Wat is een datawarehouse?

Een datawarehouse is een grote verzameling van gegevens. Meestal gaat het over een gigantische hoeveelheid aan elektronische data die bedoeld is voor decision support. Deze gegevens moeten grondig geanalyseerd worden aangezien ze gebruikt worden als basis voor belangrijke beslissingen. Hiervoor moeten deze gegevens gebundeld, gesynchroniseerd en verwerkt worden. Men wil deze gegevens dan ook zo opslaan dat deze verwerking efficiënt kan gebeuren. Hierin onderscheidt een datawarehouse zich van een standaard database.

"A (data) warehouse is a subject-oriented, integrated, time-variant and non-volatile collection of data in support of management's decision making process."

De bovenstaande definitie van een data warehouse is afkomstig van Bill Inmon, één van de grondleggers van datawarehousing. In de praktijk komt het neer op een database, waarin data wordt opgeslagen voor rapportage en analyse doeleinden. Over hoe zo'n datawarehouse eruit moet zien, bestaan verschillende meningen. De twee bekendste hiervan zijn: de klassieke benadering van Bill Inmon (CIF) en een wat meer modernere aanpak van Ralph Kimball.




De kenmerken van een datawarehouse zijn volgens de officiële definitie: (top down)


subject-oriented
Een datawarehouse is subject-oriented. Dit wil zeggen dat data gegroepeerd is per onderwerp en niet per activiteit, zoals dit bij operationele systemen het geval is.
integrated
Data in de verschillende bronsystemen, wijkt vaak af voor wat betreft gebruikte coderingen, dataformaten en data types. Voordat deze data in het datawarehouse geladen wordt, moet ze eerst op elkaar worden afgestemd.
time-variant
Een datawarehouse bevat historische data. Dit betekent dat alle data gelinkt moet zijn aan een bepaalde periode in de tijd. Bovendien moet deze data precies de situatie weergeven zoals deze was op dat moment. In operationele systemen vindt men vaak alleen de situatie van het moment terug, omdat in het geval van wijzigingen bestaande data wordt overschreven.
non-volatile
Data in een datawarehouse is statisch. Men gaat er vanuit dat data, nadat deze in het datawarehouse geladen is, niet meer veranderd.








Datawarehouse Process

dtwProcess2.jpg

Data sources

Elke databron werkt met eigen datastructuren, dataformaten en conventies voor het uitwisselen en gebruik van de data. Bovendien zijn de databronnen vaak niet even betrouwbaar, wat de kwaliteit van de data uiteraard mede bepaalt. Sommige data kunnen goed beschreven zijn, andere minder goed. De aan te leveren data moeten hierom grondig doorgelicht worden alvorens in het datawarehouse te worden ingebracht.
Databronnen kunnen overal vandaan komen. Typische bron is het belangrijkste operationele systeem dat het bedrijf heeft. Afhankelijk van de aard van het bedrijf is dit een ander systeem: bij een groothandel bijvoorbeeld het ERP-systeem en bij een verzekeringsmaatschappij de polisadministratie. Brongegevens kunnen ook aangekocht worden om de eigen data uit te breiden of te verrijken.

Data Acquisition


ETL


Het vullen van een datawarehouse wordt vaak verdeeld in 3 stappen (ETL):
  • Extraction
  • Transformation (data cleansing)
  • Loading

dtwProcess.gif

Extract

Het eerste deel van een ETL-proces haalt de data uit de bronsystemen. De meeste datawarehousingprojecten gebruiken data van verschillende bronsystemen en elk apart systeem kan ook een verschillend formaat/dataorganisatie gebruiken. Gebruikelijke databronformaten zijn relationele databases en flat files, maar kunnen ook niet-relationele databasesystemen gebruiken zoals IMS en andere datastructuren zoals VSAM en ISAM. Extraheren vormt de data om naar een formaat voor het proces van transformatie. Een intrinsiek deel van de extractie is het ontleden van de geëxtraheerde data, wat in een controle resulteert of de data een verwacht patroon of structuur beantwoordt. Deze controle houdt vooral in of die kwalitatief is en geen onregelmatigheden bevat. Indien dit niet het geval is, wordt de data volledig niet toegelaten. Dit wordt ook wel eens het opschonen van data genoemd worden.


Transform

Het omvormen van data past een serie van regels of functies toe op de geëxtraheerde data van de bron om de data af te leiden om geladen te worden naar het einddoel. Sommige databronnen zullen heel weinig of zelfs geen manipulatie nodig hebben. In andere gevallen zal er één of meer transformatie types toegepast moeten worden om aan de zakelijke en technische benodigdheden van het einddoel te beantwoorden:

  • Enkel sommige kolommen selecteren om te laden
  • Gecodeerde waarden vertalen (bv. het bronsysteem gebruikt andere waarden dan het warehouse voor bepaalde delen )dit gebeurt automatisch
  • vrije vormen van data coderen ( bv. waarde "Mannelijk" naar a en "Meneer" naar b mappen)
  • een nieuwe berekende waarde afleiden, dit is een waarde die bestaat uit een bewerking en twee bekende variabelen, maar het warehouse kent deze nieuwe waarde niet
  • data van verschillende bronsystemen samenvoegen
  • verschillende rijen samenvatten naar één rij
  • kolommen splitsen in verschillende kolommen
  • Enige vorm van complexe datavalidatie toepassen
  • transponeren of pivoteren van data

Load

De laatste fase laadt de data in het einddoel (meestal de datawarehouse). Naargelang de eisen van de organisatie, kan dit proces ver gaan. Sommige datawarehouses kunnen elke week bestaande informatie overschrijven met aangepaste, bijgewerkte data, terwijl andere datawarehouses nieuwe data in een tijdstabel-vorm toevoegen (bv. elke minuut). De timing voor de data te vervangen zijn strategisch gekozen momenten, die vooral gebaseerd zijn op de benodigdheden van de firma. Meer complexe systemen kunnen een geschiedenis bijhouden en een spoor auditten van alle veranderingen van de data, die geladen was in het datawarehouse.

Data Warehouse

Een datawarehouse is een database waarin gegevens zijn opgeslagen en dat periodiek wordt bijgewerkt.
Een datamart is een deel van een datawarehouse met logisch bij elkaar horende gegevens.
Metadata beschrijven de gegevens van een datawarehouse. In de metadata staat bijvoorbeeld dat de aanduiding voor een geslacht alfanumeriek is, een lengte van 1 heeft en dat slechts de waardes ‘M’ en ‘V’ zijn toegestaan.
De operationele datastore (ODS) is een meestal relationele database, waarin het loading proces de gegevens plaatst. In een ODS zijn de gegevens geschoond en er is geen redundantie

Data Delivery

  • Datamining is het proces dat de gegevens uit het datawarehouse sorteert, selecteert, verzamelt en hergroepeert zodat het interessante informatie oplevert. Datamining kan een simpele activiteit zijn, maar ook uitgroeien tot een enorm gecompliceerd geheel met statistische analyses, patroonherkenning en zelfs kunstmatige intelligentie (lerend systeem).
  • Analyse is een onderdeel van datamining wat zich bezighoudt met het ontdekken van complexe verbanden tussen gegevens.
  • Datakubussen zijn geordende gegevens die gedimensioneerd zijn. Het zijn dus getotaliseerde gegevens op bepaalde dimensies (bijvoorbeeld verkoopcijfers per maand en per vestiging) die weer als input kunnen dienen voor OLAP-tools.

Data Consumption

OLAP (on-line analytical processing) is het analyseren van data. Typisch gebeurt dit lokaal op een PC op geaggregeerde data die door miningprogramma’s op de IT-afdeling is klaargezet, vaak in de vorm van kubussen. Aan de OLAP-tool is een presentatiemogelijkheid gekoppeld. Dit kan een specifiek onderdeel van de OLAP-applicatie zijn of er kan HTML gegenereerd worden of de uitvoer is een bestand dat in Excel kan worden ingelezen en dat daar resulteert in een tabel of grafiek



Verschillende types datawarehouses.

Het fundamentele model van datawarehousing is vrij eenvoudig. Er zijn verschillende operationele systemen die data verzamelen en deze data overbrengen naar een centraal datawarehouse. Hier wordt de data dan verwerkt. De realiteit is echter complexer. Een datawarehouse is tegenwoordig een kluwen van gegevens en operationele systemen dat in de loop der jaren steeds complexer en minder overzichtelijker is geworden. Men kan grofweg 3 verschillende soorten datawarehouses onderscheiden.


  • Lokaal-Centraal verdeeld datawarehouse

Vaak bestaat het informaticasysteem van een organisatie uit verschillende operationele systemen. Deze systemen verwerken lokaal een deel van de data en verzenden de resultaten naar het hoofdkwartier. Hier vindt er nog een extra dataverwerking plaats: de centrale dataverwerking. Het datawarehouse wordt dus centraal bijgehouden en beheerd. Wanneer lokale systemen bepaalde data nodig hebben, zullen ze die data opvragen bij het centrale datawarehouse.

  • Het lokale datawarehouse

Bij deze systemen bevat een lokaal datawarehouse alle data die van belang is voor de lokale vestiging. De verwerking van deze gegevens voor het Decision Support System, een techniek die bij datawarehousing gebruikt wordt, gebeurt nog altijd centraal.

  • Het centrale datawarehouse

In dit systeem wordt de data die van belang is voor het lokale niveau lokaal bewaard en de data die van belang is voor het centrale niveau centraal bewaard. Ook de verwerking gebeurt op deze twee niveaus. In sommige gevallen wordt alle data, dus ook de data die enkel van belang is voor het lokale niveau, ook opgeslagen in een global data warehouse.





Bronvermelding

datamining
http://nl.wikipedia.org/wiki/Datamining

http://paulgoedhart.wordpress.com/2011/02/03/datamining-procestoepassingsgebieden/

http://www.norea.nl/readfile.aspx?ContentID=62608&ObjectID=628207&Type=1&File=0000030704_Datamining.pdf

http://www.thearling.com/dmintro/dmintro_2.htm

http://www.thearling.com/index.htm#wps

http://publib.boulder.ibm.com/infocenter/db2luw/v9/index.jsp?topic=/com.ibm.im.easy.doc/c_dm_process.html
datawarehous
http://www.bithatworks.nl/article.asp?artid=DWH

http://www.ictforyourbusiness.nl/index.asp?ContentId=3280

http://nl.wikipedia.org/wiki/Datawarehouse

http://www.microsoft.com/netherlands/bi/datawarehousing.aspx