Elke studie is om de eigenschappen van voorwerpen waar te nemen om te bepalen en evaluatie van betekenisvolle relaties en interacties tussen indicatoren van deze eigenschappen.
specialisatie omvat objecten die verschillen in hun eigenschappen en op een bepaalde manier in sommige opzichten verbonden.De uitdagingen op het gebied van programmering begint met een onderzoek van het vakgebied.
Specialisatie - het is een deel van de echte wereld, dat is oneindig en bevat zowel belangrijke en onbelangrijke gegevens.De onderzoeker moet in staat zijn om een aanzienlijk deel daarvan wijzen.Bijvoorbeeld het oplossen van het probleem van de lening, zal worden beschouwd alle relevante informatie over het privé-leven van de klant (of er is een werk met een echtgenoot, of een klant brengt minderjarige kinderen, onderwijs, klant, etc.).En om andere taken betreffende bankactiviteiten lossen, zullen dergelijke gegevens vrij significant.De betekenis van de gegevens afhankelijk van wat we kiezen als vakgebied.
Het onderzoek moet een domein model te maken.Kennis uit verschillende bronnen moet worden geformaliseerd.Specialisatie is geformaliseerd door middel van alle middelen.Fondsen kunnen zeer verschillend zijn.Dit kan een tekst beschrijving van het vakgebied of gespecialiseerde grafische notatie zijn.Met domeinmodel beschrijft de processen die plaatsvinden daarin, en studie van de gegevens op het gebied van onderzoek.
Probleemstelling ook de beschrijving van statische en dynamische gedrag van objecten die we onderzoeken.Beschrijving statische gedrag suggereert kenmerken van objecten en hun eigenschappen.In de beschrijving van het dynamische gedrag van objecten in de oorzaken van gedrag.
dynamische gedrag van objecten wordt vaak samen beschreven met statische gedrag.
Soms domein analyse en de taak worden gecombineerd in één stap.
Bij het identificeren en analyseren van de gegevens eisen die het modelleren van gegevens die nodig zijn voor Data Mining.Om dit te doen, problemen van de verdeling van de gebruikers bestuderen we;analytische kenmerken van het systeem;kwesties van toegang tot de gegevens die nodig zijn voor de analyse.
Specialisatie analyseert eenvoudiger en effectiever wanneer de organisatie heeft een data warehouse.Echter, niet alle bedrijven hebben een dergelijke datawarehouse.In dit geval is de bron voor originele gegevens de operationele databases, referentie- en archivalia, dat wil zeggen gegevens uit bestaande IP (informatiesystemen).
Meer informatie nodig kan zijn van de EG-leiders, de interne en externe bronnen van diverse papieren documenten, evenals specialistische kennis en / of de resultaten van de peilingen.
moet zich ook bewust dat in het proces van gegevensvoorbereiding ontwikkelaars zoveel mogelijk de factoren die het proces beïnvloeden zou moeten beschrijven.Er kunnen bepaalde gegevens te coderen.Bijvoorbeeld, een van de kenmerken van de cliënt - het niveau van zijn inkomen, dat kan worden gedefinieerd als: zeer laag, laag, medium, hoog, hoog.In dit geval moet de gradatie inkomen bepalen.
Bij het bepalen van de juiste hoeveelheid gegevens die moeten worden beschouwd als het ordenen van gegevens.
In het geval dat ze worden besteld, is het noodzakelijk om uit te vinden of opgenomen in deze dataset seizoensgebonden / cyclische component.Wanneer ze niet worden besteld, dat wil zeggen,set van gebeurtenissen uit de database is niet gekoppeld aan de tijdlijn, dan in de loop van de collectie moet voldoen aan de volgende regels:
1) een klein aantal records in de database kan de oorzaak van het ontstaan van een onvoldoende model;
2) de nauwkeurigheid van het model kan worden verbeterd door het aantal data;
3) verouderde informatie is uitgesloten van de set;
4) algoritmen die worden gebruikt om een model met zeer grote databases moeten de mogelijkheid op te schalen zijn.