Math & Statistics Flashcards

Foundations (107 cards)

1
Q

O que é um vetor em álgebra linear e como ele aparece em data science?

A

Um vetor é uma coleção ordenada de números (componentes). Em data science, representa uma observação, uma amostra ou os pesos de um modelo (ex: parâmetros em regressão linear).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

O que é uma matriz e para que serve em machine learning?

A

Uma matriz é um conjunto de vetores organizados em linhas e colunas. Em ML, é usada para representar datasets (cada linha = amostra, cada coluna = variável).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

O que é a transposição de uma matriz e por que é importante?

A

É o processo de trocar linhas por colunas. Usado em produtos matriciais e cálculo de gradientes (ex: Aᵀ·A em regressão linear normal equation).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Quando é possível multiplicar duas matrizes?

A

Quando o número de colunas da primeira matriz é igual ao número de linhas da segunda.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

O que representa o produto escalar entre dois vetores?

A

Mede o “alinhamento” entre vetores — se forem perpendiculares, o produto é 0.
Usado em redes neurais para calcular ativações e similaridade (ex: embeddings).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

O que é a norma de um vetor e qual sua utilidade?

A

É o comprimento (magnitude) do vetor.
Usado para normalização de dados e regularização (ex: L2 regularization em modelos).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Qual a função da matriz identidade?

A

É o “1” das matrizes — A·I = A.
Usada em decomposições e para encontrar inversas.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

O que é a matriz inversa e onde ela aparece em ML?

A

É a matriz que satisfaz A·A⁻¹ = I.
Usada, por exemplo, para resolver sistemas lineares na regressão linear com fórmula fechada: θ = (XᵀX)⁻¹Xᵀy.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Por que autovalores e autovetores são importantes em ML?

A

Eles mostram direções de maior variação dos dados.
Base do PCA (Análise de Componentes Principais), usado para redução de dimensionalidade.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

O que é SVD e por que é usada em data science?

A

A Decomposição em Valores Singulares (SVD) decompõe uma matriz em 3 partes (UΣVᵀ) e é usada para compressão de dados, recomendação e redução de ruído (PCA usa SVD).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

O que é o produto vetorial entre dois vetores em álgebra linear?

A

É uma operação entre dois vetores tridimensionais que resulta em um novo vetor perpendicular a ambos. Representa a área do paralelogramo formado pelos vetores e é útil para calcular direções ortogonais em espaços 3D.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Qual a diferença prática entre o produto escalar e o produto vetorial em Data Science?

A

Produto escalar: mede similaridade entre vetores (ângulo → correlação).

Produto vetorial: mede perpendicularidade e direção no espaço.
O escalar é mais usado em modelos preditivos, enquanto o vetorial aparece em modelagem geométrica e dados espaciais.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Qual a relação entre o produto vetorial e o gradiente em machine learning?

A

Ambos envolvem conceitos de direção e magnitude.
O gradiente aponta a direção de maior crescimento de uma função; o produto vetorial, por outro lado, fornece uma direção ortogonal — útil em otimizações geométricas e modelos baseados em vetores de rotação (ex: embeddings espaciais).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

O que é o produto escalar entre dois vetores?

A

É uma operação que resulta em um número (escalar), obtido multiplicando as componentes correspondentes dos vetores e somando os resultados.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Como o produto escalar é usado para medir similaridade entre vetores em Machine Learning?

A

Ele mede o grau de alinhamento entre dois vetores.
Quando os vetores estão na mesma direção, o produto escalar é máximo;
quando são ortogonais, é zero.
É base para o cálculo da similaridade do cosseno, amplamente usada em recomendações e NLP.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Qual a aplicação do produto escalar em redes neurais?

A

Em cada neurônio, o produto escalar é usado para combinar entradas e pesos.

Ele representa a soma ponderada das entradas, que é passada pela função de ativação — base do cálculo forward nas redes neurais.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Como o produto escalar é aplicado em redução de dimensionalidade (ex: PCA)

A

O produto escalar é usado para projetar dados em novos eixos (componentes principais).
Essa projeção mede quanto cada vetor de dados contribui em uma direção específica, ajudando a identificar as direções de maior variância nos dados.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Qual o papel do produto escalar em otimização e gradiente descendente?

A

O produto escalar entre o vetor gradiente e uma direção de atualização indica o quanto o passo move o modelo em direção ao mínimo.
É usado para ajustar a taxa de aprendizado e determinar se a direção escolhida é eficiente para reduzir a perda.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

O que são variáveis categóricas?

A

São variáveis que representam categorias ou grupos, em vez de valores numéricos. Exemplos: gênero, estado civil, cor dos olhos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Qual é a principal característica das variáveis categóricas?

A

Elas não têm ordem numérica e servem apenas para classificar ou rotular observações.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Em que tipo de análise são usadas as variáveis categóricas?

A

São usadas em análises estatísticas descritivas e em modelos preditivos após codificação (como one-hot encoding ou label encoding).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Como variáveis categóricas são representadas numericamente em machine learning?

A

Através de técnicas de codificação, como One-Hot Encoding (criação de colunas binárias) ou Label Encoding (números inteiros para cada categoria).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Quais são os dois tipos de variáveis categóricas?

A

Nominais (sem ordem) e Ordinais (com ordem lógica entre categorias).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

O que são variáveis nominais?

A

São variáveis categóricas sem ordem ou hierarquia entre as categorias. Exemplo: cor dos olhos (azul, verde, castanho).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
O que são variáveis ordinais?
São variáveis categóricas que possuem uma ordem lógica entre as categorias. Exemplo: nível de escolaridade (fundamental, médio, superior).
26
Dê um exemplo de variável nominal em um dataset de clientes.
“Estado civil” → solteiro, casado, divorciado.
27
Dê um exemplo de variável ordinal em uma pesquisa de satisfação.
“Nível de satisfação” → ruim, regular, bom, ótimo.
28
Como a ordem é tratada em variáveis ordinais em modelos de machine learning?
Pode ser preservada usando Label Encoding (mantendo a hierarquia) ou convertida em números ordenados que refletem essa relação.
29
O que é uma tabela de frequência?
É uma tabela que resume a distribuição dos dados, mostrando quantas vezes cada valor ou categoria aparece em um conjunto de dados.
30
Quais são os principais tipos de frequência em uma tabela?
Frequência absoluta (f): número de ocorrências. Frequência relativa (fr): proporção em relação ao total. Frequência acumulada (fa): soma progressiva das frequências.
31
Para que serve uma tabela de frequência?
Para organizar e visualizar a distribuição dos dados, facilitando a análise e identificação de padrões ou outliers.
32
Qual é a diferença entre tabela de frequência simples e agrupada?
Simples: usada para variáveis qualitativas ou quantitativas discretas. Agrupada: usada para variáveis quantitativas contínuas, dividindo os dados em intervalos de classe.
33
O que é uma tabela de contingência?
É uma tabela que mostra a distribuição conjunta de duas variáveis categóricas, exibindo como elas se relacionam.
34
Como é estruturada uma tabela de contingência?
As linhas representam as categorias de uma variável e as colunas as categorias da outra, com as frequências nas células.
35
Qual é o objetivo de uma tabela de contingência?
Analisar associações e dependências entre duas variáveis categóricas.
36
Que tipo de análise estatística pode ser feita com uma tabela de contingência?
Testes de independência entre variáveis, como o teste qui-quadrado (χ²)
37
Dê um exemplo prático de tabela de contingência.
Cruzar gênero (masculino/feminino) com preferência de produto (A/B/C) para ver se existe relação entre o gênero e a escolha do produto.
38
O que é probabilidade?
Probabilidade é a medida da chance de um evento ocorrer, variando de 0 (impossível) a 1 (certo). É calculada como o número de casos favoráveis dividido pelo número total de casos possíveis.
39
O que é o espaço amostral na Teoria da Probabilidade?
O espaço amostral é o conjunto de todos os resultados possíveis de um experimento aleatório. Cada resultado é chamado de elemento amostral, e eventos são subconjuntos desse espaço.
40
Qual é a diferença entre evento simples e evento composto?
Evento simples: contém apenas um resultado possível do espaço amostral. Evento composto: contém dois ou mais resultados possíveis.
41
O que é um experimento aleatório?
É um processo ou ação cujo resultado não pode ser previsto com certeza, mesmo que todas as condições sejam controladas.
42
Quais são as características de um experimento aleatório?
Pode ser repetido em condições idênticas. Possui resultados possíveis bem definidos. O resultado individual é incerto antes da execução
43
Dê um exemplo de experimento aleatório.
Lançar um dado é um experimento aleatório — sabemos os possíveis resultados (1 a 6), mas não qual número sairá antes de lançar.
44
O que diferencia um experimento determinístico de um aleatório?
Determinístico: o resultado é sempre o mesmo sob as mesmas condições. Aleatório: o resultado varia, mesmo em condições idênticas.
45
Como a probabilidade se relaciona com experimentos aleatórios?
A probabilidade mede a chance de ocorrência dos possíveis resultados de um experimento aleatório.
46
O que é um evento na Teoria da Probabilidade?
Um evento é qualquer subconjunto do espaço amostral que representa um ou mais resultados possíveis de um experimento aleatório
47
O que é um evento simples?
É um evento que contém apenas um resultado do espaço amostral. Exemplo: obter o número 3 ao lançar um dado.
48
O que é um evento composto?
É um evento que contém dois ou mais resultados possíveis. Exemplo: obter um número par ao lançar um dado (2, 4 ou 6).
49
O que significa dois eventos serem mutuamente exclusivos?
Significa que eles não podem ocorrer ao mesmo tempo. Exemplo: tirar “cara” e “coroa” em um mesmo lançamento de moeda.
50
Qual é o tipo de espaço amostral ao lançar uma moeda?
S={cara,coroa} — um espaço amostral finito e discreto.
51
O que diferencia um espaço amostral discreto de um contínuo?
Discreto: resultados contáveis (ex.: faces de um dado). Contínuo: resultados infinitos e não contáveis (ex.: tempo até um evento ocorrer).
52
O que é a variância?
A variância é uma medida de dispersão que indica o quanto os valores de um conjunto de dados se afastam da média.
53
O que significa uma variância alta ou baixa?
Alta: os valores estão muito dispersos em relação à média. Baixa: os valores estão próximos da média, indicando menor variabilidade.
54
A variância é expressa na mesma unidade dos dados originais?
Não. A variância é expressa em unidades ao quadrado, o que dificulta sua interpretação direta — daí a utilidade do desvio padrão.
55
O que é o desvio padrão?
É a raiz quadrada da variância. Mede a dispersão média dos dados em torno da média, na mesma unidade dos valores originais.
56
O que o valor do desvio padrão nos informa sobre um conjunto de dados?
Desvio padrão pequeno: os dados estão concentrados em torno da média. Desvio padrão grande: os dados estão muito espalhados.
57
O que é uma função de densidade de probabilidade (FDP)?
É uma função que descreve como a probabilidade está distribuída em uma variável aleatória contínua. A área sob a curva da FDP em um intervalo representa a probabilidade da variável assumir valores nesse intervalo.
58
Qual a diferença entre uma função de densidade de probabilidade e uma função de probabilidade (PMF)?
A FDP é usada para variáveis contínuas e envolve integrais, enquanto a PMF (Probability Mass Function) é usada para variáveis discretas e envolve somas.
59
O que é o teste t de Student?
É um teste estatístico usado para comparar médias de dois grupos e verificar se a diferença entre elas é estatisticamente significativa.
60
Quais são os principais tipos de teste t de Student?
t de uma amostra: compara a média de uma amostra com um valor conhecido. t para amostras independentes: compara médias de dois grupos diferentes. t pareado: compara médias de um mesmo grupo em dois momentos diferentes.
61
Quais são os principais pressupostos do teste t?
Os dados devem ser aproximadamente normais. As amostras devem ter variâncias homogêneas (no caso de amostras independentes). As observações devem ser independentes entre si.
62
Como interpretar o resultado do teste t?
p < 0,05: rejeita-se a hipótese nula → há diferença significativa entre as médias. p ≥ 0,05: não há evidência suficiente para rejeitar a hipótese nula → as médias são estatisticamente semelhantes.
63
Situação: Comparando a média de notas de alunos que estudaram com e sem tutoria, obteve-se p = 0,02. Interpretação: O p-valor é menor que 0,05, indicando que a diferença observada é pouco provável de ocorrer ao acaso. Conclusão: Rejeitamos H₀. A tutoria teve efeito significativo nas notas dos alunos.
64
Situação: Teste t comparando o peso médio de dois grupos de dieta resultou em p = 0,18. Interpretação: O p-valor é maior que 0,05, sugerindo que a diferença de pesos pode ser explicada pelo acaso. Conclusão: Não rejeitamos H₀. As dietas não mostraram diferença estatisticamente significativa.
65
Situação: Comparação de produtividade antes e depois de um novo software apresentou p = 0,051. Interpretação: O p-valor está ligeiramente acima de 0,05, indicando fraca evidência contra H₀. Conclusão: Não rejeitamos H₀, mas o resultado sugere tendência — mais dados poderiam esclarecer o efeito.
66
Situação: Teste entre dois medicamentos mostrou p = 0,0005. Interpretação: A probabilidade de observar uma diferença tão grande se não houvesse efeito real é menor que 0,05%. Conclusão: Rejeitamos fortemente H₀. Há forte evidência de que os medicamentos têm efeitos diferentes.
67
Situação: Teste pareado medindo o desempenho de funcionários antes e depois de um curso indicou p = 0,09. Interpretação: O p-valor indica que a melhoria observada pode ser devida ao acaso, pois ultrapassa o nível de significância. Conclusão: Não rejeitamos H₀. Não há evidências estatísticas suficientes para afirmar que o curso melhorou o desempenho.
68
O que é inferência estatística?
É o processo de usar dados da amostra para tirar conclusões ou fazer generalizações sobre uma população.
69
Quais são os dois principais tipos de inferência estatística?
Estimação (pontual e intervalar) e testes de hipóteses.
70
O que é erro amostral?
Diferença natural entre o valor observado na amostra e o valor verdadeiro da população — ocorre por usar apenas parte dos dados.
71
O que é nível de confiança?
Probabilidade (geralmente 90%, 95% ou 99%) de que o intervalo de confiança inclua o verdadeiro parâmetro populacional.
72
Qual é o objetivo de um teste de hipótese?
Avaliar evidências nos dados da amostra para decidir se rejeitar ou não a hipótese nula sobre um parâmetro da população.
73
O que é um teste de hipóteses?
É um procedimento estatístico para avaliar se há evidências suficientes, na amostra, para rejeitar uma afirmação (hipótese nula) sobre a população.
74
O que é hipótese alternativa (H₁ ou Hₐ)?
É a afirmação que se deseja testar — representa mudança, diferença ou efeito. Se houver evidência suficiente contra H₀, aceita-se H₁.
74
O que é hipótese nula (H₀)?
É a afirmação inicial que se presume verdadeira até que os dados forneçam evidências fortes o suficiente para rejeitá-la.
75
O que representa o p-valor em um teste de hipóteses?
É a probabilidade de observar um resultado tão extremo quanto o obtido assumindo que H₀ é verdadeira. Quanto menor o p-valor, maior a evidência contra H₀.
76
Qual é a regra de decisão mais comum em testes de hipóteses?
Se p-valor ≤ α (nível de significância), rejeita-se H₀. Se p-valor > α, não se rejeita H₀.
77
O que é erro Tipo I (α)?
Rejeitar a hipótese nula (H₀) quando ela é verdadeira. É um falso positivo.
78
O que é erro Tipo II (β)?
Não rejeitar a hipótese nula quando ela é falsa. É um falso negativo.
79
O que é poder estatístico?
É a probabilidade de rejeitar H₀ quando ela é realmente falsa. Ou seja, 1 − β (evitar o erro Tipo II).
80
Como o nível de significância (α) se relaciona com o erro Tipo I?
O nível de significância é a probabilidade máxima de cometer erro Tipo I. Ex: α = 0,05 significa aceitar até 5% de chance de rejeitar H₀ incorretamente.
81
O que aumenta o risco de erro Tipo II (β)?
Amostras pequenas, baixa variabilidade do efeito, nível de significância muito baixo ou testes pouco sensíveis.
82
Como erro Tipo I e erro Tipo II se relacionam?
Reduzir α (menor chance de erro Tipo I) geralmente aumenta β (maior chance de erro Tipo II), e vice-versa. Há um equilíbrio entre eles.
83
O que é um teste bilateral (two-tailed)?
É um teste que verifica se o parâmetro é diferente de um valor específico, considerando desvios tanto para cima quanto para baixo.
84
Quando usar um teste bilateral?
Quando não há direção específica para o efeito — apenas deseja-se saber se há diferença, para mais ou para menos.
85
O que é um teste unilateral (one-tailed)?
É um teste que avalia se o parâmetro é maior ou menor que um valor específico, considerando apenas uma direção.
86
Quando usar um teste unilateral?
Quando existe uma hipótese direcional clara, como “a média é maior que X” ou “a proporção é menor que Y”.
87
Como o p-valor é calculado em cada tipo de teste?
Bilateral: soma das áreas nas duas extremidades da distribuição. Unilateral: área apenas em uma das extremidades. Testes unilaterais tendem a gerar p-valores menores para o mesmo efeito.
88
Qual o impacto na decisão estatística ao escolher entre unilateral e bilateral?
Testes unilaterais têm maior poder na direção especificada, mas não detectam efeitos na direção oposta. Testes bilaterais são mais conservadores e amplamente recomendados quando não há direção definida.
89
Quando usar o teste t de Student para uma média?
Quando se quer comparar a média de uma amostra com um valor conhecido, e o desvio-padrão populacional é desconhecido.
90
Quando usar o teste t para duas amostras independentes?
Quando se deseja testar se duas médias de grupos independentes são diferentes, assumindo normalidade e variâncias semelhantes (ou não, no caso Welch).
91
O que é o teste t pareado?
É usado quando as observações dos dois grupos estão emparelhadas (antes/depois, pacientes, medições repetidas).
92
Para que serve a ANOVA (Analysis of Variance)?
Para comparar 3 ou mais médias simultaneamente, verificando se pelo menos um grupo difere significativamente dos outros.
93
Quais são as hipóteses da ANOVA?
H₀: Todas as médias dos grupos são iguais. H₁: Pelo menos uma média é diferente.
94
O que fazer se a ANOVA indicar diferença significativa?
Aplicar testes pós-hoc (como Tukey, Bonferroni) para identificar quais grupos diferem entre si.
95
Quando usar o teste Z para médias?
Quando a amostra é grande (n ≥ 30) ou o desvio-padrão populacional é conhecido, e deseja-se comparar uma média com um valor hipotético.
96
Quando usar o teste Z para proporções?
Quando se deseja comparar uma proporção observada com uma proporção teórica, ou comparar proporções entre dois grupos, com n grande.
97
Qual distribuição é usada no teste Z?
A distribuição Normal padrão (média 0, desvio padrão 1).
98
O que o teste χ² de independência avalia?
Avalia se duas variáveis categóricas são independentes, comparando frequências observadas e esperadas em uma tabela de contingência.
99
O que é o teste χ² de aderência?
Testa se a distribuição observada de frequências segue uma distribuição teórica esperada (ex.: uniforme, proporcional, categorial pré-definida).
100
Quais são as principais condições para aplicar o teste χ²?
Dados categóricos. Observações independentes. Frequências esperadas ≥ 5 na maioria das células.
101
O que é o teste F de variâncias?
É um teste que compara duas variâncias para verificar se são estatisticamente iguais, assumindo normalidade.
102
Em que situação usar o teste F para variâncias?
Quando se deseja verificar se duas populações têm variâncias iguais antes de aplicar testes paramétricos como o t convencional.
103
Qual é a principal limitação do teste F?
Ele é muito sensível à violação da normalidade, podendo gerar conclusões incorretas quando os dados não seguem uma distribuição Normal.
104
O que o teste de Levene avalia?
Testa se duas ou mais variâncias são iguais, sendo robusto a desvios de normalidade — adequado para dados reais.
105
Quando usar o teste de Bartlett?
Quando se assume que os dados são aproximadamente normais e se deseja testar homogeneidade de variâncias entre vários grupos.
106
Qual a diferença prática entre Bartlett e Levene?
Bartlett: mais poderoso, porém sensível à não normalidade. Levene: menos sensível à violação da normalidade — recomendado na maioria dos casos práticos.