0% found this document useful (0 votes)

7 views19 pages

9-1 Data analysis and pre-processing part 1.pdf

Chapter 2 discusses various aspects of data, including types of data sets, characteristics of data, and statistical descriptions. It covers data objects, feature types, and methods for measuring central tendency and dispersion. The chapter emphasizes the importance of understanding data through visualization and similarity measurements.

Uploaded by

김김진진태태

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

7 views19 pages

9-1 Data analysis and pre-processing part 1.pdf

Uploaded by

김김진진태태

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 19

Chapter 2: Getting to Know Your Data

Dong-Kyu Chae

PI of the Data Intelligence Lab @HYU

Department of Computer Science & Data Science
Hanyang University
Contents
❑ Data Objects and Feature Types

❑ Basic Statistical Descriptions of Data

❑ Data Visualization

❑ Measuring Data Similarity and Dissimilarity

❑ Summary
Types of Data Sets
❑ Tabular

timeout

season
coach

game
score
team
Data matrix / table

ball

lost
pla
❑

wi
n
y
▪ E.g.> a set of term-frequency vectors
❑ Transaction data
Document 1 3 0 5 0 2 6 0 2 0 2
❑ Graph and network
Social networks
Document 2 0 7 0 2 1 0 0 3 0 0
❑
❑ World Wide Web Document 3 0 1 0 0 1 2 2 0 3 0

Molecular structures
❑
Data matrix
❑ Time-series (ordered)
❑ Video data: sequence of images TID Items
❑ Temporal data: time-series of trajectories
1 Bread, Coke, Milk
❑ Sequential data: transaction sequences
2 Beer, Bread
❑ Genetic sequence data
3 Beer, Coke, Diaper, Milk
❑ Spatial, image, and multimodal: 4 Beer, Bread, Diaper, Milk
❑ Spatial data: maps 5 Coke, Diaper, Milk
❑ Image data
❑ Multimodal data (video + image + text + ….) Transaction data
Characteristics of Data
❑ Dimensionality
❑ # of features
❑ Curse of dimensionality

❑ Sparsity
❑ Only a small portion of presence

❑ Resolution
❑ Patterns depend on the scale

❑ Distribution

timeout

season
coach

game
score
team

ball

lost
pla

wi
n
y
❑ Centrality and dispersion

Document 1 3 0 5 0 2 6 0 2 0 2

Document 2 0 7 0 2 1 0 0 3 0 0

Document 3 0 1 0 0 1 2 2 0 3 0
Data Objects
❑ Data sets are made up of data objects
❑A data object represents a real-world entity

❑ Examples:
❑ Sales database: customers, store items, sales
❑ Medical database: patients, treatments
❑ University database: students, professors, courses

❑ Alsocalled tuples, samples, examples, instances, data

points, etc
❑ Data objects are typically described by features
❑ Database rows -> data objects; columns ->features
Features
❑ Features (or dimensions, attributes, variables, etc):
❑A measurable property or characteristics of each data object
❑ E.g., customer_ID, name, address, age, occupation, etc

❑ Types:

❑ Nominal

❑ Binary

❑ Numeric: quantitative
▪ Ratio-scaled
▪ Interval-scaled
Feature Types
❑ Nominal: categories, states, or “names of things”
❑ Has a finite number of values
❑ e.g., Hair_color = {black, blond, brown, grey, red, white, … }
❑ marital status, occupation, ID numbers, zip codes, ….

❑ Binary
❑ Special case of a nominal feature with only 2 states (0 and 1)
❑ Symmetric case and asymmetric case (will be mentioned later)

❑ Ordinal
❑ Values have a meaningful order (ranking)

❑ Magnitude between successive values is not known though

❑ E.g.> Size = {small, medium, large}

Numeric Feature Types
❑ Numeric (integer or real-valued)
❑ Ratio-scaled
▪ Ratio is meaningful
▪ Inherent zero-point (0 means absence)
▪ We can speak of values as being an order of magnitude
larger than the unit of measurement
▪ 6kg is twice as high as 3kg
▪ e.g., temperature in Kelvin, length, counts, money, etc…

❑ Interval-scaled
▪ Only difference is meaningful
▪ Measured on a scale of equal-sized units
▪ Values have order
▪ e.g., temperature in C˚or F˚
▪ No true zero-point
Contents
❑ Data Objects and Feature Types

❑ Basic Statistical Descriptions of Data

❑ Data Visualization

❑ Measuring Data Similarity and Dissimilarity

❑ Summary
Basic Statistical Descriptions of Data
❑ Motivation

❑ To better understand the data: central tendency, variation and

spread

❑ Data dispersion characteristics

❑ Median, max, min, quartiles, outliers, variance, etc.
Measuring the Central Tendency
❑ Mean (sample vs. population):

=
1 n
x =  xi
x
n i =1 N

Note: n is sample size and N is population size.

❑ Weighted arithmetic mean:

w x i i
x= i =1
n

w
i =1
i

❑ Trimmed mean:
▪ Taking mean after chopping extreme values
Measuring the Central Tendency
❑ Median:

❑ Middle value if there are odd number of values, or average of the

middle two values otherwise
❑ Simple median requires sorting, not good at a dynamic situation
❑ Solution: estimation via interpolation (for grouped data):

n / 2 − (freql )
median = L1 + ( ) * width
freqmedian
❑ Example
▪ n = 3194, n/2 = 1597, freqmedian = 1500 , L1 = 21
▪ Numerator = 1597 – (200+450+300) = 647
▪ width = (50-21) = 29
▪ Median = 21+(647/1500)*29
Median is located in this
group: 21 ~ 50. Within this
range, we approximate the
exact position of median.
Measuring the Central Tendency
❑ Mode

❑ Value that occurs most frequently in the data

▪ Usually defined on discrete features

❑ Unimodal (1), bimodal (2), trimodal (3)

Symmetric vs. Skewed Data
❑ Median, mean, and mode of symmetric, positively and
negatively skewed data
Measuring the Dispersion of Data
❑ Quartiles, outliers and boxplots
❑ Quartiles: Q1 (25th percentile), Q3 (75th percentile)

❑ Inter-quartile range (IQR): IQR = Q3 – Q1

❑ Five number summary: min, Q1, median, Q3, max

❑ Boxplot: visualization of the above five numbers

▪ Each end of the box is Q3 and Q1 ; median is marked; add whiskers

to express min & max; and plot outliers individually

❑ Outlier: usually, a value higher/lower than 1.5 x IQR

Measuring the Dispersion of Data
❑ Box plot: Five-number summary of a distribution
❑ Minimum, Q1, Median, Q3, Maximum

❑ Boxplot
❑ Data is represented with a box
❑ The ends of the box are at Q1 and Q3.
❑ => The height of the box is IQR
❑ The median is marked by a line within
the box
❑ Whiskers: two lines outside the box
extended to Minimum and Maximum
❑ Outliers: points beyond a specified
outlier threshold, plotted individually
Measuring the Dispersion of Data
❑ Variance and standard deviation (sample: s,
population: σ)
❑ Variance:

𝑛
2
1
𝑠 = ǉ 2
෍(𝑥𝑖 − 𝑥)
𝑛−1
𝑖=1

𝑵
1
𝜎 2 = ෍(𝑥𝑖 − 𝜇)2
𝑁
𝑖=1

❑ Standard deviation s (or, σ ) is the square root of variance s 2

(or, σ 2 )
Measuring the Dispersion of Data
❑ Using the normal distribution property
❑ From𝜇 − 𝜎 to 𝜇 + 𝜎 : contains about 68% of the measurements (𝜇:
mean, 𝜎 : standard deviation)
❑ From 𝜇 − 2𝜎 to 𝜇 + 2𝜎 : contains about 95% of it
❑ From 𝜇 − 3𝜎 to 𝜇 + 3𝜎 : contains about 99.7% of it
Thank You

Lectur 4 Basic Statistical Descriptions of Data
No ratings yet
Lectur 4 Basic Statistical Descriptions of Data
44 pages
DM Introduction
No ratings yet
DM Introduction
50 pages
Mod 4 Types of Data in Cluster Analysis
No ratings yet
Mod 4 Types of Data in Cluster Analysis
31 pages
Ch 2 (2)
No ratings yet
Ch 2 (2)
35 pages
lec2-data
No ratings yet
lec2-data
51 pages
Lecture 2
No ratings yet
Lecture 2
62 pages
2-1-Data
No ratings yet
2-1-Data
22 pages
Ch01_ICS422_04
No ratings yet
Ch01_ICS422_04
84 pages
02Data
No ratings yet
02Data
65 pages
02 Data
No ratings yet
02 Data
64 pages
Lec.02 Getting to Know Your Data
No ratings yet
Lec.02 Getting to Know Your Data
62 pages
Data Analysts-1
No ratings yet
Data Analysts-1
65 pages
IT326 - Ch2
No ratings yet
IT326 - Ch2
44 pages
CS 591.03 Introduction To Data Mining Instructor: Abdullah Mueen
No ratings yet
CS 591.03 Introduction To Data Mining Instructor: Abdullah Mueen
52 pages
02Data
No ratings yet
02Data
66 pages
DWDM-LS2-Fall-24-25
No ratings yet
DWDM-LS2-Fall-24-25
42 pages
Data Type, Data Chart, Descriptive Statistics
No ratings yet
Data Type, Data Chart, Descriptive Statistics
65 pages
02-KnowYourData
No ratings yet
02-KnowYourData
44 pages
VIPDMTheoryChapter2
No ratings yet
VIPDMTheoryChapter2
56 pages
Module 1
No ratings yet
Module 1
64 pages
2 Knowing Data & Visualization
No ratings yet
2 Knowing Data & Visualization
51 pages
Data ch2
No ratings yet
Data ch2
16 pages
CH 2
No ratings yet
CH 2
68 pages
Chapter 2: Getting To Know Your Data
No ratings yet
Chapter 2: Getting To Know Your Data
30 pages
Unit 3 Data Preprocessing - Data
No ratings yet
Unit 3 Data Preprocessing - Data
90 pages
data mining 2
No ratings yet
data mining 2
64 pages
DM UNIT-1-1
No ratings yet
DM UNIT-1-1
56 pages
02 Data
No ratings yet
02 Data
41 pages
Lect 3
No ratings yet
Lect 3
51 pages
01 Data
No ratings yet
01 Data
100 pages
Lec 2
No ratings yet
Lec 2
26 pages
Cs3352 Foundation of Data Science
No ratings yet
Cs3352 Foundation of Data Science
80 pages
4
No ratings yet
4
26 pages
Features
No ratings yet
Features
42 pages
02Know Your Data Lecture2 3
No ratings yet
02Know Your Data Lecture2 3
53 pages
02Data (2)
No ratings yet
02Data (2)
36 pages
02 Data
No ratings yet
02 Data
62 pages
NSC Mathematics P2 May 2025
No ratings yet
NSC Mathematics P2 May 2025
24 pages
02 Data
No ratings yet
02 Data
65 pages
Lesson 2.1 - Know Your Data PDF
No ratings yet
Lesson 2.1 - Know Your Data PDF
43 pages
Transportation Data Mining: Chapter 2. Getting To Know Your Data
No ratings yet
Transportation Data Mining: Chapter 2. Getting To Know Your Data
77 pages
02Data
No ratings yet
02Data
24 pages
02data DMDW
No ratings yet
02data DMDW
40 pages
DDWD3773 - Chapter 2 (Data Description)
No ratings yet
DDWD3773 - Chapter 2 (Data Description)
69 pages
Chapter 2
No ratings yet
Chapter 2
53 pages
Getting To Know Your Data
No ratings yet
Getting To Know Your Data
78 pages
Concepts and Techniques: - Chapter 2
No ratings yet
Concepts and Techniques: - Chapter 2
36 pages
Chapter 2
No ratings yet
Chapter 2
65 pages
02Data Edited v2
No ratings yet
02Data Edited v2
43 pages
02 Data
No ratings yet
02 Data
35 pages
Unit 3
No ratings yet
Unit 3
20 pages
Business Statistics NOtes
No ratings yet
Business Statistics NOtes
46 pages
02know Your Data-Lecture2-3
No ratings yet
02know Your Data-Lecture2-3
53 pages
Machine Learnin1
100% (1)
Machine Learnin1
41 pages
ap-statistics-practice-exam-from-the-2018-administration
No ratings yet
ap-statistics-practice-exam-from-the-2018-administration
36 pages
Chapter 2 - Understand Data
No ratings yet
Chapter 2 - Understand Data
63 pages
Data Mining: Data Exploration: - Chapter 6
No ratings yet
Data Mining: Data Exploration: - Chapter 6
56 pages
Concepts and Techniques: - Chapter 2
No ratings yet
Concepts and Techniques: - Chapter 2
54 pages
10-2 Data analysis and pre-processing part 4 PDF
No ratings yet
10-2 Data analysis and pre-processing part 4 PDF
23 pages
10-1 Data analysis and pre-processing part 3.pdf
No ratings yet
10-1 Data analysis and pre-processing part 3.pdf
19 pages
DS With R Lab Record
No ratings yet
DS With R Lab Record
37 pages
Getting To Know Your Data
No ratings yet
Getting To Know Your Data
42 pages
Integrated Project - Access To Drinking Water (Understanding The Data)
100% (1)
Integrated Project - Access To Drinking Water (Understanding The Data)
41 pages
Grouped Frequency Graphs and Box Plots r1
No ratings yet
Grouped Frequency Graphs and Box Plots r1
38 pages
15_Word Embedding
No ratings yet
15_Word Embedding
11 pages
02data (Compatibility Mode)
No ratings yet
02data (Compatibility Mode)
11 pages
Concepts and Techniques: - Chapter 2
No ratings yet
Concepts and Techniques: - Chapter 2
29 pages
Class 5.2 B Business Statistics Measures of Dispersion
No ratings yet
Class 5.2 B Business Statistics Measures of Dispersion
63 pages
Data Warehousing and Data Mining
No ratings yet
Data Warehousing and Data Mining
46 pages
Concepts and Techniques: - Chapter 2
No ratings yet
Concepts and Techniques: - Chapter 2
65 pages
UNIT 1
No ratings yet
UNIT 1
15 pages
Qo ZDMAC8 XH IXKUw C
No ratings yet
Qo ZDMAC8 XH IXKUw C
15 pages
Concepts and Techniques: - Chapter 2
No ratings yet
Concepts and Techniques: - Chapter 2
65 pages
Grade B Worksheets
No ratings yet
Grade B Worksheets
25 pages
Ai SL Y1 Unit 6 Review
No ratings yet
Ai SL Y1 Unit 6 Review
27 pages
Data Visualization in R
No ratings yet
Data Visualization in R
12 pages
Math study plan
No ratings yet
Math study plan
7 pages
A Comparative Study of Informed and Uninformed Sea
No ratings yet
A Comparative Study of Informed and Uninformed Sea
10 pages
Chap 19 Statistics PDF
No ratings yet
Chap 19 Statistics PDF
42 pages
Box Plot Template: Data Table
No ratings yet
Box Plot Template: Data Table
12 pages
Chapter 4 Data Visualization
No ratings yet
Chapter 4 Data Visualization
21 pages
Data Visualization: Dr. P. Getzi Jeba Assistant Professor / CSE
No ratings yet
Data Visualization: Dr. P. Getzi Jeba Assistant Professor / CSE
13 pages
Ib Mathematics Studies-1 PDF
No ratings yet
Ib Mathematics Studies-1 PDF
66 pages
브릿지 14
No ratings yet
브릿지 14
12 pages
lab activity
No ratings yet
lab activity
2 pages
ST102 Exercise 1
No ratings yet
ST102 Exercise 1
4 pages
Answers Stat 3360 Hw2
No ratings yet
Answers Stat 3360 Hw2
4 pages
Descriptive Sta-WPS Office
No ratings yet
Descriptive Sta-WPS Office
3 pages
Descriptive Statistics: International Journal of Academic Medicine April 2018
No ratings yet
Descriptive Statistics: International Journal of Academic Medicine April 2018
6 pages
Comparingfootballteams
No ratings yet
Comparingfootballteams
5 pages
브릿지 14해설
No ratings yet
브릿지 14해설
8 pages
Exer 03
No ratings yet
Exer 03
4 pages
Illuminating Data: A hands on guide to data visualization in R
From Everand
Illuminating Data: A hands on guide to data visualization in R
Eman Ahmad
No ratings yet