Cualquier estudio es observar las propiedades de los objetos con el fin de determinar y evaluar las relaciones significativas y las interacciones entre los indicadores de estas propiedades.
Especialización incluye objetos que difieren en sus propiedades y en cierto modo son en algunos aspectos interconectados.Responder a los retos en el campo de la programación comienza con un estudio de la materia.
Especialización - es parte del mundo real, que es infinito y contiene tanto los datos importantes y no importantes.El investigador debe ser capaz de asignar una porción sustancial de ellos.Por ejemplo, la solución del problema del préstamo, se considerará toda la información pertinente sobre la vida privada del cliente (si existe un trabajo con un cónyuge, si un cliente trae hijos menores de edad, la educación, atención al cliente, etc.).Y con el fin de resolver otras tareas relacionadas con la actividad bancaria, estos datos serán muy importantes.La importancia de los datos depende de lo que elegimos como un área temática.
El estudio necesita para crear un modelo de dominio.Conocimiento de diferentes fuentes debería formalizarse.Especialización se formaliza a través de cualquier medio.Los fondos pueden ser muy diferentes.Esto puede ser una descripción de texto de la materia o la notación gráfica especializada.Con el modelo de dominio describe los procesos que tienen lugar en él, así como el estudio de los datos en el área de investigación.Declaración
del problema es también la descripción del comportamiento estático y dinámico de objetos que investigamos.Descripción comportamiento estático sugiere características de los objetos y sus propiedades.En la descripción del comportamiento dinámico de los objetos en las causas del comportamiento.
comportamiento dinámico de objetos se describe a menudo junto con el comportamiento estático.
veces análisis de dominio y la tarea se combinan en un solo paso.
Al identificar y analizar las necesidades de datos hechas modelado de datos necesarios para la minería de datos.Para ello, se estudian los problemas de la distribución de los usuarios;características analíticas del sistema;los problemas de acceso a los datos necesarios para el análisis.
Especialización análisis más fácil y más eficaz cuando la organización tiene un almacén de datos.Sin embargo, no todas las empresas tienen un almacén de tales datos.En este caso, la fuente de datos original es el que es, de datos de IP existente (sistemas de información) bases de datos operacionales, de referencia y materiales de archivo,.
Más información se puede necesitar de los líderes comunitarios, las fuentes internas y externas de varios documentos en papel, así como los conocimientos especializados y / o los resultados de las encuestas.
también debe ser consciente de que en el proceso de los desarrolladores de software de preparación de datos debe describir tanto como sea posible los factores que afectan el proceso.Puede haber algo de codificación de datos.Por ejemplo, una de las características del cliente - el nivel de sus ingresos, que pueden definirse como: muy bajo, bajo, medio, alto, muy alto.En este caso, es necesario determinar el nivel de gradación de ingresos.
Al determinar la cantidad correcta de los datos a considerar el pedido de datos.
En el caso de que se les ordena, es necesario averiguar si se incluye en este set componente estacional / cíclica de datos.Cuando no están ordenados, es decir,conjunto de eventos de la base de datos no está vinculada a la línea de tiempo, a continuación, en el curso de la colección debe cumplir con las siguientes reglas:
1) un pequeño número de registros en la base de datos puede ser la causa de la creación de un modelo inadecuado;
2) la exactitud del modelo puede mejorarse aumentando el número de datos;
3) información obsoleta se excluye del conjunto;
4) algoritmos que se utilizan para crear un modelo con grandes bases de datos, debe tener la capacidad de escalar.