Enhver undersøgelse er at observere egenskaberne for objekter med henblik på at bestemme og evaluering af meningsfulde relationer og interaktioner mellem indikatorer for disse egenskaber.
Specialisering indeholder objekter, der er forskellige i deres egenskaber og på en bestemt måde, er i visse henseender er indbyrdes forbundet.Møde udfordringerne inden for programmering begynder med en undersøgelse af fagområdet.
Specialisering - det er en del af den virkelige verden, som er uendelig og indeholder både vigtige og uvigtige data.Forskeren skal være i stand til at afsætte en betydelig del af dem.For eksempel løse problemet med lånet, vil blive betragtet som alle relevante oplysninger om privatliv kunden (om der er et arbejde med en ægtefælle, om en kunde bringer mindreårige børn, uddannelse, kunde, etc.).Og for at løse andre opgaver i forbindelse med bankvirksomhed, vil disse oplysninger være ganske betydelig.Betydningen af data afhænger af, hvad vi vælger som et fagområde.
Undersøgelsen skal oprette et domæne model.Viden fra forskellige kilder bør formaliseres.Specialisering er formaliseret ved hjælp af ethvert middel.Fondene kan være meget forskellige.Dette kan være en tekst beskrivelse af det fagområde eller specialiserede grafisk notation.Med domænet Modellen beskriver de processer, der finder sted i det, samt studere dataene inden for forskningen.
Erklæring af problemet er også beskrivelsen af den statiske og dynamiske opførsel af objekter, som vi undersøger.Beskrivelse statisk adfærd tyder egenskaber af objekter og deres egenskaber.I beskrivelsen af den dynamiske opførsel af objekter i årsagerne til adfærd.
dynamiske opførsel af objekter er ofte beskrevet sammen med statisk opførsel.
Sommetider domæne analyse og opgave er kombineret i ét trin.
Ved at identificere og analysere de datakrav gjort modellering data til Data Mining.For at gøre dette, vi studerer spørgsmål af fordelingen af brugerne;analytiske egenskaber af systemet;spørgsmål om adgang til de data, der er nødvendige for analysen.
Specialisering analyser lettere og mere effektiv, når organisationen har et data warehouse.Men ikke alle virksomheder har sådan en datawarehouse.I dette tilfælde er kilde til oprindelige data er den operationelle databaser, reference og arkivalier, der er, data fra eksisterende IP (informationssystemer).
Mere information kan være nødvendig fra EF ledere, interne og eksterne kilder til forskellige papirdokumenter samt specialviden og / eller resultater af meningsmålingerne.
bør også være opmærksomme på, at i processen med forberedelse af data softwareudviklere skal beskrive så meget som muligt de faktorer, der påvirker processen.Der kan være nogle data kodning.For eksempel er et af kendetegnene for kunden - niveauet af sin indkomst, der kan defineres som: meget lav, lav, medium, høj, meget høj.I dette tilfælde er det nødvendigt at bestemme graduering indkomstniveau.
Ved bestemmelse af den rigtige mængde af data, der skal overvejes bestilling af data.
I tilfælde af at de er bestilt, er det nødvendigt at finde ud af, om der indgår i denne datasæt sæsonbestemt / cykliske komponent.Når de ikke er bestilt, dvs.sæt af begivenheder fra databasen er ikke knyttet til tidslinjen, så i løbet af samlingen, skal overholde følgende regler:
1) et lille antal poster i databasen kan være årsag til oprettelsen af en utilstrækkelig model;
2) nøjagtigheden af modellen kan forbedres ved at øge antallet af data;
3) forældede oplysninger er udelukket fra sættet;
4) algoritmer, der bruges til at skabe en model med meget store databaser, skal have evnen til at skalere.