Indica os paradigmas de representação do conhecimento da Inteligência Artificial.
Indique os principais paradigmas de aprendizagem
Indique as principais vantagens/benificios do uso de metodologias de análise de dados.
Indique as principais metodologias de análise de dados e as suas respectivas etapas.
CRISP-DM (Cross Industry Standard Process for Data Mining)
* Estudo do negócio
* Estudo dos dados
* Preparação dos dados
* Modelação
* Avaliação
* Desenvolvimento
SEMMA (Sample, Explore, Modify, Model, Assess)
PMML (Predictive Model Markup Language) = linguagem desenvolvida para descrever modelos em XML
Indique as tarefas na preparação de dados
Descreva o principal método relativo à Discretização/Enumeração, uma das etapas na preparação dos dados.
A discretização/enumeração consiste na redução do número de valores de um atributo contínuo em intervalos.
Isto pode ser feito através de:
* Equal-height Binning
* divide a gama de valores em N intevalos, cada um contendo, aproximadamente, a mesma quantidade de valores.
* Pros & Cons
* Igual largura normalmete preferida dada a possibilidade de "amontoar" dados
* Na prática, é são usados intervalos de "quase" igual altura para garantir intervalos mais intuitivos.
* Menos sensível a valores de fronteira
* Criação de intervalos para valores especiais ("0")Descreva os métodos alternativos a Binning relativos à Discretização/Enumeração de dados, uma das etapas da preparação de dados.
Métodos alternativos na discretização:
* 1R (baseado em Binning)
* Entropia
* Impurezas
Indique as principais decisões perante a ausência de dados, destacando os cenários mais viáveis para cada cenário.
Evitar adicionar distorção aos dados
Descreva os principais métodos relativo à Transformação, uma das etapas na preparação dos dados.
Quais as principais diferenças entre Normalization e Standarization (Padronização), conceitos à preparação de dados mais precisamente na uniformização (transformação).
Descreva o objetivo da Redução de dados, uma das etapas na preparação dos dados e indique as principais estratégias.
A Redução de dados pretende obter uma representação reduzida do volume de dados em conjunto com a produção dos mesmos (quase) resultados analíticos.
As principais estratégias baseam-se em:
Quais são os principais tópicos que a preparação de dados pretende abordar?
Conclusões
Indique as técnicas de aprendizagem relativas ao paradigma de aprendizagem com supervisão.
Explique o processo de construção de uma árvore de decisão e consequente modelo de decisão baseado no paradigma de aprendizagem com supervisão.
Modelos de decisão e etapas
Existem 2 tipos de paradigmas de criação de modelos de decisão (Top-down e Bottom-up). As árvores de decisão seguem o paradigma Bottom-up:
A construção de uma árvore de decisão baseia-se nas etapas:
Indique o significado de entropia no contexto da análise de dados e explique a sua relação com um problema de árvores de decisão.
A entropia indentifica o grau de desorganização dos dados
Na construção de uma árvore de decisão, existe a questão de qual o melhor atributo para ser a raiz da árvore de decisão.
Através da entropia (Entropia(S) = -p(+)log2(p(+)) - p(-)log2(p(-)) com p(+) pertence a [0,1] e p(-) equivalente a (1-p(+)) pertence a [0,1])
determinar o atributo com maior ganho de informação.
O atributo com maior ganho será a raiz da árvore.
Refira o funcinamento interno da técnica de aprendizagem de Classificação e as métricas de qualidade usadas para este tipo de técnicas.
Classificação baseia-se num conjunto de registos. Cada registo é caracterizado por um tuplo (x,y) em que x representa o conjunto de atributos e y a classe/categoria atribuida.
O objectivo consiste em apresentar um modelo que mapeia cada conjunto de atributos x em uma das classes predefinidas y.
Métricas de avaliação:
Refira o funcinamento interno da técnica de aprendizagem de Regressão e as métricas de qualidade usadas para este tipo de técnicas e o seu respetivo significado.
Regressão = como variable(s) independentes conseguem prever uma variavel dependente.
Descreva os mecanismos de avaliação de modelos.
Descreva o processo de seleção de atributos (Feature Selection), uma das etapas de preparação de dados.
A seleção de atributos deve se basear em:
Descreva os processos de one hot enconding e label enconding.
one hot enconding redefine o dataset de forma a adicionar novas colunas respetivas a cada valor categorico. Após isso, usa números binários de forma a preencher as respetivas colunas (preenche com 0 em todas a coluna à excessão da linha correspondente à label (1)). label enconding uma nova coluna com um valor númerico associado a cada categoria.
Exemplo: coluna com cidades.
Indique o que entende por aprendizagem não supervisionada e descreva a principal técnica.
Aprendizagem não supervisinada = dado que os resultados sobre os diferentes casos não são conhecidos, existe a necessiade da escolha de técnicas que avaliem o funcionamento técnico do sistema.
Técnicas:
Indique como lidar com os diferentes tipos de dados para análise ao usar Segmentação.
* Atributos contínuos, binários, nominais, ordinarios, mistos
Indique os principais métodos de segmentação.
Descreva o funcionamento e os pros & cons de utilização do método heurístico K-means, um dos algoritmos de particionamento relativos a segmentação.
Funcionamento do k-means:
Pros:
Cons: