Skillnad mellan data mining och OLAP

Anonim

Data Mining vs OLAP

Både data mining och OLAP är två av de gemensamma Business Intelligence (BI) teknologierna. Business Intelligence avser datorbaserade metoder för att identifiera och extrahera användbar information från företagsdata. Data mining är datavetenskapsområdet som behandlar extraherande mönster från stora datamängder. Den kombinerar många metoder från artificiell intelligens, statistik och databashantering. OLAP (online analytisk behandling) som namnet antyder är en sammanställning av sätt att fråga multidimensionella databaser.

Data mining är också känd som Knowledge Discovery in data (KDD). Som nämnts ovan är det ett datavetenskapsområde som behandlar extraktion av tidigare okänd och intressant information från rådata. På grund av exponentiell tillväxt av data, särskilt inom områden som näringsliv, har datautvinning blivit ett mycket viktigt verktyg för att omvandla denna stora mängd data till affärsintelligens, eftersom manuell utvinning av mönster har blivit omöjligt omöjligt under de senaste decennierna. Till exempel är det för närvarande använt för olika applikationer som social nätverksanalys, bedrägeri-upptäckt och marknadsföring. Data mining handlar vanligen om följande fyra uppgifter: gruppering, klassificering, regression och association. Clustering identifierar liknande grupper från ostrukturerad data. Klassificering är lärande regler som kan tillämpas på nya data och kommer normalt att innehålla följande steg: förbehandling av data, design modellering, inlärning / funktion val och utvärdering / validering. Regression är att hitta funktioner med minimalt fel på modelldata. Och föreningen söker relationer mellan variabler. Data mining brukar användas för att svara på frågor som de viktigaste produkterna som kan bidra till att få hög vinst nästa år i Wal-Mart.

OLAP är en klass av system som ger svar på mångdimensionella frågor. Vanligtvis används OLAP för marknadsföring, budgetering, prognoser och liknande applikationer. Det är självklart att de databaser som används för OLAP är konfigurerade för komplexa och ad hoc-frågor med snabb prestanda i åtanke. Vanligtvis används en matris för att visa utmatningen från en OLAP. Raderna och kolumnerna bildas av frågans dimensioner. De använder ofta metoder för aggregering på flera tabeller för att få sammanfattningar. Till exempel kan det användas för att ta reda på försäljningen av detta år i Wal-Mart jämfört med förra året? Vad är förutsägelsen för försäljningen under nästa kvartal? Vad kan man säga om trenden genom att titta på den procentuella förändringen?

Även om det är uppenbart att Data mining och OLAP liknar att de arbetar med data för att få intelligens, kommer den största skillnaden från hur de fungerar på data.OLAP-verktyg ger multidimensionell dataanalys och de ger sammanfattningar av data men kontrasterande fokuserar datautvinning på förhållanden, mönster och influenser i datamängden. Det är en OLAP-hantering med aggregering, vilket kollar ner till driften av data via "addition" men datautvinning motsvarar "division". En annan anmärkningsvärd skillnad är att OLAP ska utföra jämförelse- och kontrasttekniker längs affärsdimensionen i realtid medan datautvinning modellerar data och returnerar reglerbara regler.