Por que listas são amplamente usadas em Data Science?
Servem como ponto de partida para armazenar e manipular coleções de dados antes de convertê-las em estruturas mais eficientes como arrays ou DataFrames.
Qual a vantagem de usar NumPy arrays em vez de listas comuns?
Arrays do NumPy são mais rápidos, consomem menos memória e permitem operações vetorizadas sem loops explícitos.
O que é um DataFrame do pandas?
Uma estrutura de dados bidimensional (tipo tabela) usada para armazenar e manipular dados tabulares, semelhante a uma planilha do Excel.
Qual estrutura de dados é mais adequada para operações matemáticas em ML?
numpy.ndarray, pois suporta álgebra linear e operações matriciais usadas em treinamento de modelos.
O que é uma Series do pandas?
É uma estrutura unidimensional rotulada (similar a uma coluna de DataFrame), usada para representar variáveis isoladas.
Como os dicionários são usados em Data Science?
Para armazenar pares de chave-valor, úteis em mapeamentos de rótulos, parâmetros de modelos e resultados de métricas.
Qual estrutura do Python é ideal para representar um vetor de características de um modelo ML?
Um numpy array unidimensional.
Como converter um DataFrame em um array NumPy?
Usando o método .values ou .to_numpy() — exemplo: df.to_numpy().
O que é um sparse matrix e onde é usada?
Uma matriz que armazena apenas valores diferentes de zero — usada em NLP e modelos com muitos recursos (alta dimensionalidade).
Como as estruturas de dados impactam o desempenho de modelos de ML?
Estruturas otimizadas (como arrays e matrizes esparsas) reduzem tempo de processamento e uso de memória, acelerando o treinamento e a inferência.
Quais são as principais estruturas de dados nativas do Python?
Listas, Tuplas, Conjuntos (sets) e Dicionários (dicts).
O que caracteriza uma lista em Python?
É ordenada, mutável e permite elementos duplicados. Criada com [].
Quando usar tuplas em vez de listas?
Quando os dados não devem ser alterados, pois tuplas são imutáveis e mais eficientes em desempenho.
O que é um set em Python?
Um conjunto não ordenado, mutável e sem elementos duplicados. Ideal para operações como união e interseção.
Como os dicionários organizam os dados?
Em pares de chave-valor, permitindo acesso rápido aos dados pela chave, e não pelo índice.
O que é o NumPy?
É uma biblioteca Python usada para computação numérica eficiente, com suporte a arrays multidimensionais e operações vetorizadas.
Qual é o principal tipo de dado usado no NumPy?
O objeto ndarray, que representa um array N-dimensional.
O que é o Pandas?
É uma biblioteca Python usada para análise e manipulação de dados, oferecendo estruturas como Series e DataFrame.
Qual é o comando mais comum para importar o Pandas?
import pandas as pd
O que é um DataFrame?
É uma estrutura de dados bidimensional (tabelar), com linhas e colunas nomeadas, semelhante a uma planilha do Excel.
Como ler um arquivo CSV no Pandas?
pd.read_csv(“nome_do_arquivo”)
Como visualizar as primeiras linhas de um DataFrame?
df.head() — por padrão mostra as 5 primeiras linhas
Como selecionar uma coluna específica de um DataFrame?
df[“coluna”] ou df.coluna
Como filtrar linhas com base em uma condição?
df[df[“coluna”] > 100]