DB & SQL Flashcards

Question

count rows

Answer 1

select count(*) from table;

Answer 2

SELECT author_lname, COUNT(*) | FROM books GROUP BY author_lname;

Answer 3

SELECT * FROM books WHERE pages = (SELECT Min(pages) FROM books);

Answer 4

decimal(max num of digits, digits after decimal point)

Answer 5

SELECT birthdt, DATE_ADD(birthdt, INTERVAL 1 MONTH) FROM people; SELECT birthdt, birthdt - INTERVAL 5 MONTH FROM people;

Answer 6

CREATE TABLE comments ( content VARCHAR(100), created_at TIMESTAMP DEFAULT NOW() ); CREATE TABLE comments2 ( content VARCHAR(100), changed_at TIMESTAMP DEFAULT NOW() ON UPDATE CURRENT_TIMESTAMP );

Answer 7

SELECT DATE_FORMAT(birthdt, '%m/%d/%Y') FROM people;

Answer 8

SELECT title, stock_quantity, CASE WHEN stock_quantity <= 50 THEN '*' WHEN stock_quantity <= 100 THEN '**' ELSE '***' END AS STOCK FROM books; IF(count > 0, 'active', 'inactive') as status

Answer 9

``` CREATE TABLE customers( id INT AUTO_INCREMENT PRIMARY KEY, first_name VARCHAR(100), last_name VARCHAR(100), email VARCHAR(100) ); CREATE TABLE orders( id INT AUTO_INCREMENT PRIMARY KEY, order_date DATE, amount DECIMAL(8,2), customer_id INT, FOREIGN KEY(customer_id) REFERENCES customers(id) ); ```

Answer 10

-- IMPLICIT INNER JOIN SELECT * FROM customers, orders WHERE customers.id = orders.customer_id; -- EXPLICIT INNER JOIN SELECT * FROM customers JOIN orders ON customers.id = orders.customer_id;

Answer 11

IFNULL(amount, 0)

Answer 12

SELECT * FROM customers LEFT JOIN orders ON customers.id = orders.customer_id;

Answer 13

SELECT * FROM customers RIGHT JOIN orders ON customers.id = orders.customer_id;

Answer 14

``` CREATE TABLE customers( id INT AUTO_INCREMENT PRIMARY KEY, first_name VARCHAR(100), last_name VARCHAR(100), email VARCHAR(100) ); ``` ``` CREATE TABLE orders( id INT AUTO_INCREMENT PRIMARY KEY, order_date DATE, amount DECIMAL(8,2), customer_id INT, FOREIGN KEY(customer_id) REFERENCES customers(id) ON DELETE CASCADE ); ```

Answer 15

``` CREATE TABLE likes ( user_id INTEGER NOT NULL, photo_id INTEGER NOT NULL, created_at TIMESTAMP DEFAULT NOW(), FOREIGN KEY(user_id) REFERENCES users(id), FOREIGN KEY(photo_id) REFERENCES photos(id), PRIMARY KEY(user_id, photo_id) ); ```

Answer 16

``` SELECT username, Count(*) AS num_likes FROM users INNER JOIN likes ON users.id = likes.user_id GROUP BY likes.user_id HAVING num_likes = (SELECT Count(*) FROM photos); ```

Answer 17

var mysql = require('mysql') ``` var connection = mysql.createConnection({ host : 'localhost', user : 'root', password: '/password/', database: 'database_name', insecureAuth: true }); q = 'SELECT 1 + 1 AS solution' connection.query(q, function (error, results, fields) { if (error) throw error; console.log(results[0].solution); }); connection.end(); ```

Answer 18

``` var person = { email: faker.internet.email(), created_at: faker.date.past() }; ``` var end_result = connection.query('INSERT INTO users SET ?', person, function(err, result) { if (err) throw err; console.log(result); });

Answer 19

``` var data = []; for (i = 0; i < 500; i++) { data.push([ faker.internet.email(), faker.date.past() ]) } var q = 'INSERT INTO users (email, created_at) VALUES ?'; ``` ``` connection.query(q, [data], function (error, results, fields) { if (error) throw error; console.log(results); }); connection.end(); ```

Answer 20

DELIMITER $$ ``` CREATE TRIGGER trigger_name trigger_time trigger_event ON table_name FOR EACH ROW BEGIN END; $$ ``` DELIMITER ; DELIMITER $$ ``` CREATE TRIGGER create_unfollow AFTER DELETE ON follows FOR EACH ROW BEGIN INSERT INTO unfollows SET follower_id = OLD.follower_id, followee_id = OLD.followee_id; END$$ ``` DELIMITER ;

Answer 21

``` SELECT (SELECT DISTINCT Salary FROM Employee ORDER BY Salary DESC LIMIT 1 OFFSET 1) AS SecondHighestSalary ; // OFFSET - смещение строки ```

Answer 22

CREATE FUNCTION getNthHighestSalary(N INT) RETURNS INT BEGIN RETURN ( select distinct e1.salary from Employee e1 where N-1 = (select count(distinct e2.Salary) from Employee e2 where e1.Salary < e2.Salary) ); END

Answer 23

``` SELECT S1.Score, (SELECT COUNT(DISTINCT Score) FROM Scores AS S2 WHERE S2.Score >= S1.Score) AS 'Rank' FROM Scores AS S1 ORDER BY Score DESC; ```

Answer 24

``` SELECT DISTINCT l1.Num AS ConsecutiveNums FROM Logs l1, Logs l2, Logs l3 WHERE l1.Id = l2.Id - 1 AND l2.Id = l3.Id - 1 AND l1.Num = l2.Num AND l2.Num = l3.Num; ```

Answer 25

SELECT name AS Employee FROM Employee e1 where Salary > (SELECT Salary FROM Employee e2 where e2.id = e1.ManagerId);

Answer 26

SELECT Email from Person GROUP BY Email HAVING COUNT(*) > 1;

Answer 27

``` SELECT Department.name AS 'Department', Employee.name AS 'Employee', Salary FROM Employee JOIN Department ON Employee.DepartmentId = Department.Id WHERE (Employee.DepartmentId , Salary) IN ( SELECT DepartmentId, MAX(Salary) FROM Employee GROUP BY DepartmentId ) ; ```

Answer 28

``` select w1.Id from Weather w1, Weather w2 where w1.temperature > w2.temperature and TO_DAYS(w1.RecordDate)-TO_DAYS(w2.RecordDate)=1; ```

Answer 29

``` update salary set sex = case sex when 'm' then 'f' when 'f' then 'm' end; ```

Answer 30

``` // используем остаток от деления: если ид нечетный и не последний, прибавляем 1, если нечетный и последний, оставляем как есть, иначе отнимаем 1 SELECT (CASE WHEN MOD(id, 2) != 0 AND counts != id THEN id + 1 WHEN MOD(id, 2) != 0 AND counts = id THEN id ELSE id - 1 END) AS id, student FROM seat, (SELECT COUNT(*) AS counts FROM seat) AS seat_counts ORDER BY id ASC; ```

Answer 31

// сначала объединяем таблицу работников с отделами по ид, потом объединяем по ид и зарплате, группируем по именам работников, названиям отделов и зарплате, ставим условие, что количество отдельных зарплат не больше 2 select c.name as Department, a.Name as Employee, a.Salary from Employee as a join Department as c on a.DepartmentId = c.Id left join Employee as b on a.DepartmentId = b.DepartmentId and b.Salary > a.Salary group by c.name, a.name, a.Salary having count(distinct b.Salary) <= 2;

Answer 32

SELECT t.Request_at as Day, // вычисляем соотношение отмененных вызовов: число выполненных вызовов делим на все заказы 1-ROUND(count(CASE WHEN t.Status='completed' THEN True ELSE NULL END) /count(*), 2 ) as 'Cancellation Rate' FROM Trips t // клиенты и водители должны быть во множестве незабаненных WHERE t.Client_Id IN (SELECT Users_Id FROM Users WHERE Banned='No') AND t.Driver_Id IN (SELECT Users_Id from Users where Banned='No') // время заказов между указанными датами AND t.Request_at BETWEEN '2013-10-01' and '2013-10-03' // группируем по датам заказа GROUP BY t.Request_at;

Answer 33

``` SELECT t.* FROM stadium t // объединяем таблицу с версиями вчера-позавчера-завтра-послезавтра LEFT JOIN stadium p1 ON t.id - 1 = p1.id LEFT JOIN stadium p2 ON t.id - 2 = p2.id LEFT JOIN stadium n1 ON t.id + 1 = n1.id LEFT JOIN stadium n2 ON t.id + 2 = n2.id WHERE t.people >= 100 AND ( (p1.people >= 100 AND p2.people >= 100) OR (n1.people >= 100 AND n2.people >= 100) OR (n1.people >= 100 AND p1.people >= 100) ) ORDER BY id; ```

Answer 34

в NoSQL базах в отличие от реляционных структура данных не регламентирована (или слабо типизированна, если проводить аналогии с языками прогаммирования) — в отдельной строке или документе можно добавить произвольное поле без предварительного декларативного изменения структуры всей таблицы. Таким образом, если появляется необходимость поменять модель данных, то единственное достаточное действие — отразить изменение в коде приложения. Приятное следствие отсутствия схемы — эффективность работы с разреженными (sparse) данными. Если в одном документе есть поле date_published, а во втором — нет, значит никакого пустого поля date_published для второго создано не будет. Это, в принципе, логично, но менее очевидный пример — column-family NoSQL базы данных, в которых используются знакомые понятия таблиц/колонок. Однако в силу отсутствия схемы, колонки не объявляются декларативно и могут меняться/добавляться во время пользовательской сессии работы с базой. Это позволяет в частности использовать динамические колонки для реализации списков. У неструктурированной схемы есть свои недостатки — помимо упомянутых выше накладных расходов в коде приложения при смене модели данных — отсутствие всевозможных ограничений со стороны базы (not null, unique, check constraint и т.д.), плюс возникают дополнительные сложности в понимании и контроле структуры данных при параллельной работе с базой разных проектов (отсутствуют какие-либо словари на стороне базы). В отличие от реляционной модели, которая сохраняет логическую бизнес-сущность приложения в различные физические таблицы в целях нормализации, NoSQL хранилища оперируют с этими сущностями как с целостными объектами Структура должна подчиняться требованиям приложения и быть максимально оптимизированной под наиболее частые запросы. Распределенные системы, без совместно используемых ресурсов (share nothing) горизонтальное масштабирование, когда несколько независимых серверов соединяются быстрой сетью и каждый владеет/обрабатывает только часть данных и/или только часть запросов на чтение-обновление основные свойства распределенных NoSQL баз: Репликация — копирование данных на другие узлы при обновлении. Позволяет как добиться большей масштабируемости, так и повысить доступность и сохранность данных. Принято подразделять на два вида: master-slave и peer-to-peer Первый тип предполагает хорошую масштабируемость на чтение (может происходить с любого узла), но немасштабируемую запись (только в мастер узел). Также есть тонкости с обеспечением постоянной доступности (в случае падения мастера либо вручную, либо автоматически на его место назначается один из оставшихся узлов). Для второго типа репликации предполагается, что все узлы равны и могут обслуживать как запросы на чтение, так и на запись. Шардинг — разделение данных по узлам. Шардинг часто использовался как “костыль” к реляционным базам данных в целях увеличения скорости и пропускной способности: пользовательское приложение партицировало данные по нескольким независимым базам данных и при запросе соответствующих данных пользователем обращалось к конкретной базе. В NoSQL базах данных шардинг, как и репликация, производятся автоматически самой базой и пользовательское приложение обособленно от этих сложных механизмов.

Answer 35

database - collections (tables) - documents (data pieces)

Answer 36

sudo mongod --dbpath "my/new/path" | mongo

Answer 37

use db (also create)

Answer 38

db.(collectionname).insertOne({"key":value})

Answer 39

db.(collectionname).insertOne({"key":value, _id: 'some_id'})

Answer 40

Create - insertOne(data, options); insertMany(data, options) Read - find(filter, options); findOne(filter, options) Update - updateOne(filter, data, options); updateMany(filter, data, options); replaceOne(filter, data, options) Delete - deleteOne(filter, options); deleteMany(filter, options)

Answer 41

db.collection_name.deleteMany({})

Answer 42

db.collection_name.updateOne({filter}, {$set: {new data}})

Answer 43

db.collection_name.find().toArray()

Answer 44

db.collection_name.find({},{key:1, _id:0})

Answer 45

Extract Transform Load один из основных процессов в управлении хранилищами данных, который включает в себя: извлечение данных из внешних источников; их трансформация и очистка, чтобы они соответствовали потребностям бизнес-модели; и загрузка их в хранилище данных. С точки зрения процесса ETL, архитектуру хранилища данных можно представить в виде трёх компонентов: источник данных: содержит структурированные данные в виде таблиц, совокупности таблиц или просто файла (данные в котором разделены символами-разделителями); промежуточная область: содержит вспомогательные таблицы, создаваемые временно и исключительно для организации процесса выгрузки. получатель данных: хранилище данных или база данных, в которую должны быть помещены извлечённые данные. При разработке процедуры извлечения данных в первую очередь необходимо определить частоту выгрузки данных из OLTP-систем (Online Transaction Processing, способ организации БД) или отдельных источников. Выгрузка данных занимает определённое время, которое называется окном выгрузки. В процессе преобразования данных в рамках ETL чаще всего выполняются следующие операции: ``` преобразование структуры данных; агрегирование данных; перевод значений; создание новых данных; очистка данных. ``` Процесс загрузки заключается в переносе данных из промежуточных таблиц в структуру хранилища данных. При очередной загрузке в хранилище данных переносится не вся информация из источников, а только та, которая была изменена в течение промежуточного времени, прошедшего с предыдущей загрузки. ETL-системы должны в идеале решать не одну, а две задачи: Привести все данные к единой системе значений и детализации, попутно обеспечив их качество и надежность; Обеспечить аудиторский след при преобразовании (Transform) данных, чтобы после преобразования можно было понять, из каких именно исходных данных и сумм собралась каждая строчка преобразованных данных. Процесс загрузки – Его задача затянуть в ETL данные произвольного качества для дальнейшей обработки, на этом этапе важно сверить суммы пришедших строк, если в исходной системе больше строк, чем в RawData то значит — загрузка прошла с ошибкой; Процесс валидации данных – на этом этапе данные последовательно проверяются на корректность и полноту, составляется отчет об ошибках для исправления; Процесс мэппинга данных с целевой моделью – на этом этапе к валидированной таблице пристраивается еще n-столбцов по количеству справочников целевой модели данных, а потом по таблицам мэппингов в каждой пристроенной ячейке, в каждой строке проставляются значения целевых справочников. Значения могут проставляться как 1:1, так и *:1, так и 1:* и *:*, для настройки последних двух вариантов используют формулы и скрипты мэппинга, реализованные в ETL-инструменте; Процесс агрегации данных – этот процесс нужен из-за разности детализации данных в OLTP и OLAP системах. OLAP-системы — это, по сути, полностью денормализованная таблица фактов и окружающие ее таблицы справочников (звездочка/снежинка), максимальная детализация сумм OLAP – это количество перестановок всех элементов всех справочников. А OLTP система может содержать несколько сумм для одного и того же набора элементов справочников. Можно было-бы убивать OLTP-детализацию еще на входе в ETL, но тогда мы потеряли бы «аудиторский след». Этот след нужен для построения Drill-down отчета, который показывает — из каких строк OLTP, сформировалась сумма в ячейке OLAP-системы. Поэтому сначала делается мэппинг на детализации OLTP, а потом в отдельной таблице данные «схлопывают» для загрузки в OLAP; Выгрузка в целевую систему — это технический процесс использования коннектора и передачи данных в целевую систему.

DB & SQL Flashcards

(69 cards)