Skillnaden mellan KDD och Data mining

Anonim

KDD vs Data mining

KDD (Knowledge Discovery in Databases) är ett datavetenskapsområde som innehåller verktyg och teorier som hjälper människor att extrahera användbar och tidigare okänd information (dvs. kunskap) från stora samlingar av digitaliserad data. KDD består av flera steg, och Data Mining är en av dem. Data Mining är tillämpning av en specifik algoritm för att extrahera mönster från data. Ändå används KDD och Data Mining utbytbart.

Vad är KDD?

Som nämnts ovan är KDD ett datavetenskapsområde som behandlar utvinning av tidigare okänd och intressant information från rådata. KDD är hela processen att försöka få mening av data genom att utveckla lämpliga metoder eller tekniker. Denna process behandlar kartläggningen av lågnivådata i andra former som är mer kompakta, abstrakta och användbara. Detta uppnås genom att skapa korta rapporter, modellera processen för att generera data och utveckla prediktiva modeller som kan förutsäga framtida fall. På grund av exponentiell tillväxt av data, särskilt inom områden som företag, har KDD blivit en väldigt viktig process för att omvandla denna stora mängd data till affärsintelligens, eftersom manuell utvinning av mönster har blivit omöjligt omöjligt under de senaste decennierna. Till exempel är det för närvarande använt för olika tillämpningar såsom social nätverksanalys, bedrägeribekämpning, vetenskap, investeringar, tillverkning, telekommunikation, dataväxling, sport, informationshämtning och till stor del för marknadsföring. KDD brukar användas för att svara på frågor som vad är de viktigaste produkterna som kan bidra till att få hög vinst nästa år i Wal-Mart?. Denna process har flera steg. Det börjar med att utveckla en förståelse för applikationsdomänen och målet och sedan skapa en måldatasats. Detta följs av rengöring, förbehandling, reduktion och projicering av data. Nästa steg använder Data Mining (förklaras nedan) för att identifiera mönster. Slutligen konsolideras upptäckt kunskap genom att visualisera och / eller tolka.

Vad är Data Mining?

Som nämnts ovan är Data Mining bara ett steg inom den övergripande KDD-processen. Det finns två viktiga data mining mål som definieras av målet för ansökan, och de är nämligen verifiering eller upptäckt. Verifiering verifierar användarens hypotes om data, medan upptäckten automatiskt hittar intressanta mönster. Det finns fyra viktiga data mining uppgift: kluster, klassificering, regression och association (sammanfattning). Clustering identifierar liknande grupper från ostrukturerad data. Klassificering är lärande regler som kan tillämpas på nya data. Regression är att hitta funktioner med minimalt fel på modelldata.Och föreningen söker relationer mellan variabler. Då måste den specifika datavinnningsalgoritmen väljas. Beroende på målet kan olika algoritmer som linjär regression, logistisk regression, beslutsträd och Naïve Bayes väljas. Då söks intressanta mönster i en eller flera representationsformer. Slutligen utvärderas modellerna antingen med hjälp av prediktiv noggrannhet eller förståbarhet.

Vad är skillnaden mellan KDD och Data mining?

Även om de två termen KDD och Data Mining används kraftigt utbytbart, hänvisar de till två relaterade men lite olika begrepp. KDD är den övergripande processen att extrahera kunskap från data medan Data Mining är ett steg inuti KDD-processen, som handlar om att identifiera mönster i data. Med andra ord är Data Mining bara tillämpningen av en specifik algoritm baserad på det övergripande målet för KDD-processen.