0% found this document useful (0 votes)

2 views5 pages

Complete Data Science Questions

The document discusses various aspects of data science, including data preprocessing, data cleaning, handling outliers, and evaluation metrics like accuracy, precision, recall, and F1-score. It also covers techniques such as ROC curves, cross-validation, central tendency measures, hypothesis testing, and visualization using Matplotlib and Seaborn. Additionally, it explains algorithms like multiple linear regression, decision trees, and random forests, along with model selection techniques.

Uploaded by

Muhammed Minhaj

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

2 views5 pages

Complete Data Science Questions

Uploaded by

Muhammed Minhaj

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 5

Data Science Questions - 10 & 15 Marks

1. What is Data Preprocessing? Explain the steps involved.

Definition:
Data preprocessing is the initial stage in the data analysis pipeline where raw data is cleaned and transformed into

Steps Involved:
- Data Cleaning: Handle missing values, remove duplicates, correct errors.
- Data Transformation: Normalize or scale numerical data; encode categorical variables.
- Feature Engineering: Create new features, combine or split existing ones.
- Data Reduction: Use techniques like PCA, LDA, or feature selection to reduce dimensionality.
- Data Integration: Combine data from multiple sources.
- Data Discretization: Convert continuous data into categorical bins.

Importance:
Enhances data quality, reduces noise, and boosts model accuracy.

2. Define Data Cleaning and Discuss Its Tasks.

Definition:
Data cleaning is the process of correcting or removing inaccurate records from a dataset.

Tasks:
- Missing Values: Imputation (mean, median), deletion, or forward/backward filling.
- Outliers: Detect with z-score, boxplot; remove or transform.
- Noise Handling: Use smoothing techniques or binning.
- Normalization/Scaling: StandardScaler or MinMaxScaler to bring values to a common scale.
- Type Conversion & Deduplication: Convert data types; remove duplicate rows.

Purpose:
Improves data integrity and model reliability.

3. Techniques Used for Handling Outliers

Outliers are extreme values that differ significantly from the rest.

Detection Methods:
- Z-score: Values with z > 3 or z < -3 are considered outliers.
- IQR Method: Values outside Q1 - 1.5IQR or Q3 + 1.5IQR.
- Boxplots: Visual detection.
- Machine Learning Methods: Isolation Forest, One-Class SVM.

Handling Methods:
- Removal: If clearly erroneous.
- Transformation: Log, square root, or winsorization.
- Imputation: Replace with mean/median.

4. Differences Between Accuracy, Precision, Recall, and F1-Score

When to Use:
- Accuracy: For balanced datasets.
- Precision: When false positives are costly (e.g., spam detection).
- Recall: When false negatives are critical (e.g., disease diagnosis).
- F1-score: When you need a balance (imbalanced data).

5. ROC Curve and AUC in Binary Classification

ROC Curve:
Plots True Positive Rate (TPR) vs False Positive Rate (FPR) at different thresholds.

AUC (Area Under Curve):

- Ranges from 0 to 1.
- Higher AUC = better model.

Advantages Over Accuracy:

- Works well with imbalanced datasets.
- Evaluates performance across all thresholds.
- Highlights trade-off between sensitivity and specificity.

6. What is Cross-Validation? Types and Pros/Cons

Definition:
Cross-validation divides the data into parts, training and testing the model multiple times to get an average perform

Types:
- K-Fold: Divides data into k parts; trains on k-1, tests on 1.
- Stratified K-Fold: Preserves class distribution.
- Leave-One-Out (LOOCV): One sample for testing, rest for training.
- Repeated K-Fold: Repeats k-fold multiple times for reliability.

Advantages:
- Reduces overfitting.
- Provides robust performance estimate.

Disadvantages:
- Computationally expensive.
- May not suit small datasets.

1. Central Tendency and Dispersion Measures with Example

Central Tendency:
- Mean: Average value.
- Median: Middle value.
- Mode: Most frequent value.

Dispersion:
- Range: Max - Min.
- Variance: Average of squared differences from the mean.
- Standard Deviation: Square root of variance.

Example:
import numpy as np
scores = [45, 50, 55, 60, 65, 70, 75]
mean = np.mean(scores)
median = np.median(scores)
std_dev = np.std(scores)
print(mean, median, std_dev)

2. Hypothesis Testing with Example

Definition:
A method for making inferences about population parameters based on sample data.

Steps:
1. Formulate H0 and H1 (null and alternative).
2. Choose significance level (α = 0.05).
3. Select test (e.g., t-test).
4. Calculate test statistic.
5. Compare with critical value or p-value.
6. Interpret result.

Example: Testing whether a new drug lowers BP more than the old one using a two-sample t-test.

3. Matplotlib Plots with Code

import matplotlib.pyplot as plt

# Line plot
plt.plot([1, 2, 3], [4, 5, 6])
plt.title("Line Plot")
plt.show()

# Bar plot
plt.bar(['A', 'B', 'C'], [10, 20, 15])
plt.title("Bar Plot")
plt.show()

# Histogram
plt.hist([1,1,2,3,3,3,4,5])
plt.title("Histogram")
plt.show()

# Scatter plot
plt.scatter([1,2,3], [4,5,6])
plt.title("Scatter Plot")
plt.show()

4. Seaborn Plots with Code

import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd

# Sample data
df = sns.load_dataset("tips")

# Scatterplot
sns.scatterplot(x="total_bill", y="tip", data=df)
plt.title("Scatterplot")
plt.show()

# Heatmap
sns.heatmap(df.corr(), annot=True)
plt.title("Heatmap")
plt.show()

# Boxplot
sns.boxplot(x="day", y="total_bill", data=df)
plt.title("Boxplot")
plt.show()

# Violin plot
sns.violinplot(x="day", y="total_bill", data=df)
plt.title("Violin Plot")
plt.show()

5. Visualize and Remove Outliers Using Box Plot and Z-Score

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

data = np.array([1, 2, 3, 4, 5, 100]) # Outlier = 100

z_scores = stats.zscore(data)
outliers = data[np.abs(z_scores) > 2]

# Boxplot
plt.boxplot(data)
plt.title("Box Plot")
plt.show()

# Remove outliers
cleaned = data[np.abs(z_scores) <= 2]
print("Cleaned data:", cleaned)

6. Multiple Linear Regression Algorithm and Assumptions

Algorithm:
Fit a linear equation y = β0 + β1x1 + β2x2 + ... + βnxn + ε.
Use Ordinary Least Squares (OLS) to minimize residual sum of squares.

Assumptions:
- Linearity
- Independence of errors
- Homoscedasticity (equal variance)
- Normal distribution of errors
- No multicollinearity

7. Decision Tree with Example

Definition:
A supervised ML algorithm that splits data based on feature conditions.

Example:
Predicting if a customer buys a car based on income and age.

from sklearn.tree import DecisionTreeClassifier

clf = DecisionTreeClassifier()
clf.fit(X_train, y_train)

Advantages: easy to interpret, non-linear modeling.

8. Random Forest with Example

Definition:
An ensemble method combining multiple decision trees.
Example:
from sklearn.ensemble import RandomForestClassifier
clf = RandomForestClassifier()
clf.fit(X_train, y_train)

Advantages: better generalization, handles missing data and outliers.

9. Model Selection and Techniques

Definition:
Choosing the best model for a task.

Techniques:
- Cross-Validation
- Grid Search
- Random Search
- Bayesian Optimization
- AIC/BIC Scores
- Validation Curves

Goal:
Ensure the model generalizes well to unseen data.

Data Science Cheatsheet
100% (1)
Data Science Cheatsheet
5 pages
SML
No ratings yet
SML
8 pages
Pattern Summary Final
No ratings yet
Pattern Summary Final
28 pages
DataAnalytics Lab Manual (1)
No ratings yet
DataAnalytics Lab Manual (1)
35 pages
Data Science Cheatsheet 2.0: Statistics Model Evaluation Logistic Regression
No ratings yet
Data Science Cheatsheet 2.0: Statistics Model Evaluation Logistic Regression
4 pages
dsbda_ut5
No ratings yet
dsbda_ut5
7 pages
Data Science Assignment
No ratings yet
Data Science Assignment
9 pages
ML_Questions_Answers
No ratings yet
ML_Questions_Answers
4 pages
Foundation of Data Science previous year question paper
No ratings yet
Foundation of Data Science previous year question paper
40 pages
EDA_INDEPTH
No ratings yet
EDA_INDEPTH
19 pages
Unit 3
No ratings yet
Unit 3
55 pages
Advance Python
No ratings yet
Advance Python
5 pages
ML Exam Preparation Tips
No ratings yet
ML Exam Preparation Tips
41 pages
Exam PA Knowledge Based Outline
No ratings yet
Exam PA Knowledge Based Outline
22 pages
ML assignment
No ratings yet
ML assignment
13 pages
Viva
No ratings yet
Viva
7 pages
Northbay Summarizes Data Pre-Processing Algorithms
No ratings yet
Northbay Summarizes Data Pre-Processing Algorithms
10 pages
Unit 7 ML
No ratings yet
Unit 7 ML
33 pages
Data Analysis
No ratings yet
Data Analysis
8 pages
Machine Learning Notes
No ratings yet
Machine Learning Notes
4 pages
MSDSModule 2
No ratings yet
MSDSModule 2
35 pages
Module 3 Notes
No ratings yet
Module 3 Notes
5 pages
Data Preprocessing
No ratings yet
Data Preprocessing
56 pages
Data Science Cheatsheet
No ratings yet
Data Science Cheatsheet
4 pages
Oral Aswers Dsbda
No ratings yet
Oral Aswers Dsbda
7 pages
k
No ratings yet
k
11 pages
Kaggle Competitions - How To Win
No ratings yet
Kaggle Competitions - How To Win
74 pages
Data Analytics Lab Manual_250402_095326
No ratings yet
Data Analytics Lab Manual_250402_095326
58 pages
Bussiness Report PM
No ratings yet
Bussiness Report PM
44 pages
PMA Unit-2 pdf
No ratings yet
PMA Unit-2 pdf
19 pages
Python Essential Methods In Machine Learning
No ratings yet
Python Essential Methods In Machine Learning
6 pages
EXP-2
No ratings yet
EXP-2
6 pages
ML_Unit_2
No ratings yet
ML_Unit_2
52 pages
Machine Learning Project Checklist
No ratings yet
Machine Learning Project Checklist
30 pages
EXP-2 ML
No ratings yet
EXP-2 ML
6 pages
000+ +curriculum+ +Complete+Data+Science+and+Machine+Learning+Using+Python
No ratings yet
000+ +curriculum+ +Complete+Data+Science+and+Machine+Learning+Using+Python
10 pages
Ai Chapter 3
No ratings yet
Ai Chapter 3
8 pages
Parametric
No ratings yet
Parametric
15 pages
Computer Vision-Lec 3
No ratings yet
Computer Vision-Lec 3
11 pages
ML Combined
No ratings yet
ML Combined
254 pages
Assignment 9[1]
No ratings yet
Assignment 9[1]
8 pages
Human Activities Classifier Using SVM
No ratings yet
Human Activities Classifier Using SVM
19 pages
Bi Intro
No ratings yet
Bi Intro
24 pages
Chandigarh Group of Colleges College of Engineering Landran, Mohali
No ratings yet
Chandigarh Group of Colleges College of Engineering Landran, Mohali
47 pages
BANA 560 - Lecture - 2 - Data - Mining - Overview - Data - Exploration
No ratings yet
BANA 560 - Lecture - 2 - Data - Mining - Overview - Data - Exploration
38 pages
General ML Notes
No ratings yet
General ML Notes
30 pages
Dsbda Viva Ans
No ratings yet
Dsbda Viva Ans
8 pages
EDAN96_2024_Last_lecture-1
No ratings yet
EDAN96_2024_Last_lecture-1
78 pages
Pattern L1 L6
No ratings yet
Pattern L1 L6
19 pages
TE_ML_LAB_mannual
No ratings yet
TE_ML_LAB_mannual
21 pages
1
No ratings yet
1
19 pages
Be A 65 Ads Exp 3
No ratings yet
Be A 65 Ads Exp 3
6 pages
AML MIDSEM
No ratings yet
AML MIDSEM
59 pages
Data Science Classes
No ratings yet
Data Science Classes
13 pages
Data Science
No ratings yet
Data Science
13 pages
Chapter 02 Overview (R)
No ratings yet
Chapter 02 Overview (R)
43 pages
Data Science Interview Questions (#Day11) PDF
100% (1)
Data Science Interview Questions (#Day11) PDF
11 pages
Machine Learning Qs
No ratings yet
Machine Learning Qs
10 pages
ml file syllabus
No ratings yet
ml file syllabus
43 pages
Illuminating Data: A hands on guide to data visualization in R
From Everand
Illuminating Data: A hands on guide to data visualization in R
Eman Ahmad
No ratings yet
Maximizing Using Cvxpy
No ratings yet
Maximizing Using Cvxpy
7 pages
ABAQUS Theory Manual (v6
No ratings yet
ABAQUS Theory Manual (v6
3 pages
20.taller IdentifArgumDeductivosValidosNoValidos (LogicCoach Set1.4 Parti)
No ratings yet
20.taller IdentifArgumDeductivosValidosNoValidos (LogicCoach Set1.4 Parti)
4 pages
Instrumental Methods of Analysis Sixth Edition Wil
No ratings yet
Instrumental Methods of Analysis Sixth Edition Wil
1 page
DM Extended Project
No ratings yet
DM Extended Project
2 pages
Research Methodology
No ratings yet
Research Methodology
12 pages
AOD Assignment-1
No ratings yet
AOD Assignment-1
11 pages
Interdisciplinary Approaches To Philippine Arts and Culture Monica FA W. Santos
No ratings yet
Interdisciplinary Approaches To Philippine Arts and Culture Monica FA W. Santos
6 pages
Nifty Technical Analysis 18032010
No ratings yet
Nifty Technical Analysis 18032010
12,775 pages
Indefinite Integrals Calculus
100% (1)
Indefinite Integrals Calculus
5 pages
Some Modeling Considerations
No ratings yet
Some Modeling Considerations
5 pages
Laboratory Module: Control Systems (EMT 364/4) Semester 2 (2011/2012)
No ratings yet
Laboratory Module: Control Systems (EMT 364/4) Semester 2 (2011/2012)
4 pages
Stats Sample Commerce
No ratings yet
Stats Sample Commerce
20 pages
Project 2
No ratings yet
Project 2
9 pages
3.3 Newton Divided-Difference Formula
No ratings yet
3.3 Newton Divided-Difference Formula
3 pages
Exploring High School Learners Proficien
No ratings yet
Exploring High School Learners Proficien
17 pages
FIDP BasCal
No ratings yet
FIDP BasCal
11 pages
Detailed Description of Content of Course
No ratings yet
Detailed Description of Content of Course
2 pages
Theory Construction and Model Building Skills A Practical Guide for Social Scientists 1st Edition James Jaccard - Explore the complete ebook content with the fastest download
No ratings yet
Theory Construction and Model Building Skills A Practical Guide for Social Scientists 1st Edition James Jaccard - Explore the complete ebook content with the fastest download
47 pages
The Nature of Analytical Chemistry
No ratings yet
The Nature of Analytical Chemistry
34 pages
14.08 Lagrange Multipliers
No ratings yet
14.08 Lagrange Multipliers
11 pages
Chapter 01
No ratings yet
Chapter 01
10 pages
Hamiltonian PDF
No ratings yet
Hamiltonian PDF
15 pages
Lecture Notes On Numerical Methods For Differential Equations
No ratings yet
Lecture Notes On Numerical Methods For Differential Equations
146 pages
Basic Differentiation Table
No ratings yet
Basic Differentiation Table
1 page
IEOR E4703 Spring 2016 Syllabus
No ratings yet
IEOR E4703 Spring 2016 Syllabus
2 pages
Kidron, I. Lenfant A. Bikner-Ahsbahs A. Artigue M. - 2008 - Toward Networking Three Different Approaches - Educational Studies in Mathematics 23
No ratings yet
Kidron, I. Lenfant A. Bikner-Ahsbahs A. Artigue M. - 2008 - Toward Networking Three Different Approaches - Educational Studies in Mathematics 23
18 pages
Practical Introduction To FEA and CFD
No ratings yet
Practical Introduction To FEA and CFD
4 pages
ch04 Sampling Distributions
No ratings yet
ch04 Sampling Distributions
60 pages
6 Decision Analysis
No ratings yet
6 Decision Analysis
32 pages