всяко проучване е да се наблюдава на свойствата на обекти с цел определяне и оценка на значими връзки и взаимодействия между тях показатели на тези имоти.
Специализация включва обекти, които се различават по своите свойства и по определен начин, са в някои отношения помежду си.Посрещане на предизвикателствата в областта на програмирането започва с изучаване на предметната област.
Специализация - това е част от реалния свят, което е безкрайно и съдържа както важни и маловажни данни.Изследователят трябва да е в състояние да отдели значителна част от тях.Например, решаване на проблема с кредита, ще се счита цялата необходима информация за личния живот на клиента (дали има работа със съпруг или съпруга, независимо дали клиентът носи непълнолетни деца, образование, клиенти и т.н.).И, за да разреши други задачи, свързани с банковата дейност, тези данни ще бъдат доста значителни.Значимостта на данните зависи от това, което сме избрали като тематика.
Изследването трябва да се създаде модел на домейн.Знания от различни източници трябва да бъдат формализирани.Специализация е формализирано чрез всякакви средства.Средствата могат да бъдат много различни.Това може да е текст, описание на предметната област или специализиран графичен нотация.С модела на домейна описва процесите, които се извършват в него, както и проучване на данните в областта на научните изследвания.
резюме на проблема е също описанието на статично и динамично поведение на обекти, които проверяваме.Описание статично поведение подсказва характеристики на обекти и техните свойства.В описанието на динамичното поведение на обекти в причините за поведението.
динамично поведение на обекти често се описва заедно с статично поведение.
Понякога анализ на домейн и задача са комбинирани в една стъпка.
В идентифициране и анализиране на изискванията за данните, направени на данни, необходими за моделиране на Data Mining.За да направите това, ние изучаваме въпросите на разпределението на потребителите;аналитични характеристики на системата;въпроси, свързани с достъпа до данните, необходими за анализ на данни.
Специализация анализира по-лесно и по-ефективно, когато организацията има хранилище на данни.Въпреки това, не всички фирми имат такъв склад за данни.В този случай, източникът на оригиналната информация е оперативните бази данни, номера и архивни материали, а именно данни от съществуващата IP (информационни системи).
може да е необходима повече информация от лидерите на ЕС, вътрешни и външни източници на различни документи на хартиен носител, както и специализирани познания и / или резултати от анкетите.
също трябва да бъде наясно, че в процеса на подготовка на разработчиците на данни софтуер трябва да описва възможно най-много от факторите, които влияят на процеса.Може да има някои кодиране на данните.Например, една от характеристиките на клиента - на нивото на доходите си, които могат да се определят като: много ниско, ниско, средно, високо, много високо.В този случай, е необходимо да се определи нивото на градация на доходите.
При определяне на точното количество данни, за да се счита за подреждане на данни.
В случай, че те са подредени, че е необходимо да се установи дали са включени в този комплект данни, сезонна / цикличен компонент.Когато те не са подредени, т.е.набор от събития от базата данни не е свързан с времевата линия, а след това в хода на събирането трябва да отговарят на следните правила:
1) малък брой записи в базата данни може да бъде причина за създаването на неадекватен модел;
2) точността на модела може да се подобри чрез увеличаване на броя на данни;
3) остаряла информация се изключва от снимачната площадка;
4) алгоритми, които се използват за създаване на модел с много големи бази данни, следва да имат възможността да мащаб.