0% found this document useful (0 votes)

4 views5 pages

BDS306B_Module5

The document outlines Module 5 of a Python course, covering data reading and writing techniques, object serialization with pickling, data preparation, transformation, and aggregation. It explains concepts such as discretization, binning, permutation, random sampling, and outlier detection, providing examples using Python libraries like pandas. Key processes like pickling and unpickling, as well as methods for handling categorical and continuous variables, are also discussed.

Uploaded by

preethamsgowda149

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

4 views5 pages

BDS306B_Module5

Uploaded by

preethamsgowda149

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 5

Semester : III

Subject : Python Subject Code : BDS306B

Module 5

Contents
Reference - Textbook2 – Chapter 5 and Chapter 6

 Reading and Writing data - CSV and textual files, HTML files, XML files,
Microsoft excel files, JSON data.
 Pickle python object serialization.
 Data preparation.
 Data transformation - discretization binning, permutation, string manipulation
 Data aggregation group iteration.

Abbreviation
HTML – Hyper Text Markup Language
CSV – Comma separated values
JSON – Java script object notation
XML – Extended Markup Language

Pickling of Objects in Python

Serialization is the process of converting complex data or an object into byte stream. This process is
called pickling in python. Complex data or object can be recreated back by deserializing. This
process is called unpickling in python. Library pickle or _pickle is used to pickle and unpickle in
python.

Library pandas can also be used to pickle and unpickle

Example:
# pickling using pickle library
d1 = {"USN01":"xyz", "USN02":"abc"}
file1 = open("student","wb")
file1 = pickle.dump(file1, d1)
file1.close()
# unpickling using pickle library
file2 = open("student.dat", "rb")
d1 = pickle.load(file2)
print(d1)
file2.close()

# using pandas library

d1 = {"USN01":["xyz"], "USN03":["abc"]}
df1 = pd.DataFrame(d1)
df1.to_pickle("student1.dat") --- pickling
df2 = pd.read_pickle("student1.dat") ----- unpickling
print(df2)

Discretization and Binning

Discretization is the process of converting continuous variable to categorical variable. Categorical

variable is one which stores discrete and finite values. Example - result (pass, fail), color
(RED,BLUE, ...), days (Sunday, Monday, ....), Month (Jan, Feb, ......). Continuous variable stores
continuous numeric values like percentage, height, weight, etc.

Pandas provides two functions cut() and qcut() to perform discretization.

Example -

perc = [56.23,67.23,44.56, 89.99,76.99, 99.9,72.65, 45.34,82.34]

bins = [40,50,60,70,80,90,100]
bin_names = ["F", "E","D","C","B","A"]
grade = pd.cut(perc,bins, labels=bin_names)
print(grade)
output :
['E', 'D', 'F', 'B', 'C', 'A', 'C', 'F', 'B']
Categories (6, object): ['F' < 'E' < 'D' < 'C' < 'B' < 'A']

# if bins are not specified, and no. of bins are specified

perc = [56.23,67.23,44.56, 89.99,76.99, 99.9,72.65, 45.34,82.34]
bin_names = ["E","D","C","B","A"]
cat = pd.cut(perc, 5, labels = bin_names) # value_counts are not equal
print(cat)
output :
['D', 'C', 'E', 'A', 'C', 'A', 'C', 'E', 'B']
Categories (5, object): ['E' < 'D' < 'C' < 'B' < 'A']
# using qcut() ---- value_counts are equal but edges vary
perc = [56.23,67.23,44.56, 89.99,76.99, 99.9,72.65, 45.34,82.34]
bin_names = ["E","D","C","B","A"]
cat = pd.qcut(perc, 5, labels=bin_names) # value_counts are equal
print(cat)
output :
['D', 'D', 'E', 'A', 'B', 'A', 'C', 'E', 'B']
Categories (5, object): ['E' < 'D' < 'C' < 'B' < 'A']
Permutation

Random reordering of Series or rows of a DataFrame is called Permutation.

Example :
df = pd.DataFrame(np.arange(30).reshape(5,6))
print(df)
new_order = np.random.permutation(5)
print(df.take(new_order))
output :
0 1 2 3 4 5
0 0 1 2 3 4 5
1 6 7 8 9 10 11
2 12 13 14 15 16 17
3 18 19 20 21 22 23
4 24 25 26 27 28 29

Random subet of a dataframe can also be created.

Example :
df = pd.DataFrame(np.arange(30).reshape(5,6))
print(df)
new_order = [2,3,0]
print(df.take(new_order))
output:
0 1 2 3 4 5
2 12 13 14 15 16 17
3 18 19 20 21 22 23
0 0 1 2 3 4 5

Random Sampling

Extract a subset of DataFrame randomly using randomint() function in numpy is Random

Sampling.

Example :
df = pd.DataFrame(np.arange(30).reshape(6,5))
print(df)
sample = np.random.randint(0,len(df), size= 3)
print(df.take(sample))
output :
0 1 2 3 4
1 5 6 7 8 9
5 25 26 27 28 29
3 15 16 17 18 19

Detecting and Filtering outlier

Outlier is an unusual value which is very high or very low. Outliers can be considered as those
values which is greater 3 times standard deviation. It is important in data analysis to detect and
remove outliers from dataframe before model building as its presence affects accuracy. Any()
method can be used to detect outliers in a dataframe.

Metadata Matters by Tom Kyte (Oracle)
100% (2)
Metadata Matters by Tom Kyte (Oracle)
60 pages
WebPOS 3rd Party Integration Tool (W3P)
No ratings yet
WebPOS 3rd Party Integration Tool (W3P)
37 pages
Python Cheat Sheet 2.0
100% (1)
Python Cheat Sheet 2.0
10 pages
PYQ Data Analysis and Visualisation Using Python GE May 2024
No ratings yet
PYQ Data Analysis and Visualisation Using Python GE May 2024
6 pages
Pandas
No ratings yet
Pandas
27 pages
Series and Pandas Methods
No ratings yet
Series and Pandas Methods
5 pages
2023 Data Analysis and Visualization Using Python
100% (2)
2023 Data Analysis and Visualization Using Python
9 pages
Search in Sharepoint 2019
No ratings yet
Search in Sharepoint 2019
11 pages
Object-Oriented Finite Element Analysis
No ratings yet
Object-Oriented Finite Element Analysis
285 pages
Python Shell Programming
No ratings yet
Python Shell Programming
3 pages
EDA - Exploratory Data Analysis
No ratings yet
EDA - Exploratory Data Analysis
16 pages
Gerdelan Anton - Professional Programming Tools for C and C++ (2020)
No ratings yet
Gerdelan Anton - Professional Programming Tools for C and C++ (2020)
152 pages
12 Ip Practical List With Solution Complete
No ratings yet
12 Ip Practical List With Solution Complete
5 pages
Advanced Python Programming Data Science: The University of Sheffield
No ratings yet
Advanced Python Programming Data Science: The University of Sheffield
55 pages
Pandas Cheat Sheet PDF
67% (3)
Pandas Cheat Sheet PDF
1 page
Using C++ To Connect To Web Services - Steve Gates - CppCon 2014
No ratings yet
Using C++ To Connect To Web Services - Steve Gates - CppCon 2014
40 pages
python interviews
No ratings yet
python interviews
154 pages
Software Engineering
100% (1)
Software Engineering
9 pages
IP_Lab_record[1]
No ratings yet
IP_Lab_record[1]
23 pages
hduud
No ratings yet
hduud
55 pages
Informatics Practices Class 12 Cbse Notes Data Handling
0% (1)
Informatics Practices Class 12 Cbse Notes Data Handling
17 pages
QnA - Base Certification
No ratings yet
QnA - Base Certification
37 pages
AL Notes
No ratings yet
AL Notes
61 pages
Python Cheat Sheet: Pandas - Numpy - Sklearn Matplotlib - Seaborn BS4 - Selenium - Scrapy
100% (4)
Python Cheat Sheet: Pandas - Numpy - Sklearn Matplotlib - Seaborn BS4 - Selenium - Scrapy
11 pages
IP Record Final-1
No ratings yet
IP Record Final-1
34 pages
Mail Received Authentication
No ratings yet
Mail Received Authentication
40 pages
DBM_8200Enh_VehicleActions_2013
No ratings yet
DBM_8200Enh_VehicleActions_2013
42 pages
Creation of Series Using List, Dictionary & Ndarray
No ratings yet
Creation of Series Using List, Dictionary & Ndarray
65 pages
SYMAP UsersManual E PDF
No ratings yet
SYMAP UsersManual E PDF
98 pages
CH-6 Data Loading, Storage, and File Formats
No ratings yet
CH-6 Data Loading, Storage, and File Formats
163 pages
DSBDAL
No ratings yet
DSBDAL
87 pages
Final Exam (OPEN BOOK) : Kohat University of Science & Technology Institute of Computing
No ratings yet
Final Exam (OPEN BOOK) : Kohat University of Science & Technology Institute of Computing
4 pages
ML Lab Manual Final
No ratings yet
ML Lab Manual Final
36 pages
Lap Trinh Huong Doi Tuong
No ratings yet
Lap Trinh Huong Doi Tuong
11 pages
Paper 2 - Sample
No ratings yet
Paper 2 - Sample
10 pages
Quick Sort
No ratings yet
Quick Sort
4 pages
Class 12 Practical File Informatics Practices
No ratings yet
Class 12 Practical File Informatics Practices
28 pages
Python Cheat Sheet - The Basics Coursera
No ratings yet
Python Cheat Sheet - The Basics Coursera
2 pages
Java Imp Notes
No ratings yet
Java Imp Notes
2 pages
Pandas Practicals - Term-1
100% (1)
Pandas Practicals - Term-1
18 pages
EDP-3[2]
No ratings yet
EDP-3[2]
16 pages
JAVA For Beginners: Using The Vehicle Class
No ratings yet
JAVA For Beginners: Using The Vehicle Class
12 pages
1
No ratings yet
1
12 pages
PythonForMachineLearning
No ratings yet
PythonForMachineLearning
66 pages
Ch-10 String Manipulation: "Enter The String: " "Enter The Character To Count: " "Occurs" "Times"
No ratings yet
Ch-10 String Manipulation: "Enter The String: " "Enter The Character To Count: " "Occurs" "Times"
8 pages
Python Notes by Prof T
No ratings yet
Python Notes by Prof T
10 pages
HPC Module 4
No ratings yet
HPC Module 4
18 pages
Pandas DataFrame Notes
100% (1)
Pandas DataFrame Notes
10 pages
Python Data Science 101
100% (1)
Python Data Science 101
41 pages
Unit 4_Working With Graphs _python
No ratings yet
Unit 4_Working With Graphs _python
49 pages
DAP_3_module
No ratings yet
DAP_3_module
62 pages
3rd Semester DDM AI DAA DEV Print Pages For Spiral Record 25-1-24 - Removed
No ratings yet
3rd Semester DDM AI DAA DEV Print Pages For Spiral Record 25-1-24 - Removed
28 pages
Assignment2B
No ratings yet
Assignment2B
1 page
GE- COMPUTER SCIENCE DATA ANALYSIS
No ratings yet
GE- COMPUTER SCIENCE DATA ANALYSIS
16 pages
IDS-1
No ratings yet
IDS-1
30 pages
Data_Cleaning
No ratings yet
Data_Cleaning
22 pages
BDA File
No ratings yet
BDA File
26 pages
Python Cheat Sheet Code Academy
100% (1)
Python Cheat Sheet Code Academy
1 page
FS Kiit BBP MM 05
No ratings yet
FS Kiit BBP MM 05
9 pages
UNIT -4 -PART 2
No ratings yet
UNIT -4 -PART 2
36 pages
Main 9
No ratings yet
Main 9
2 pages
Prac Format 24 - 25
No ratings yet
Prac Format 24 - 25
23 pages
Data Analysis 6060
No ratings yet
Data Analysis 6060
6 pages
01 Introduction to Python
No ratings yet
01 Introduction to Python
36 pages
python 1
No ratings yet
python 1
16 pages
Palak Resume
No ratings yet
Palak Resume
1 page
Python Cheat Sheet For Excel Users
100% (2)
Python Cheat Sheet For Excel Users
5 pages
Pregruntas
No ratings yet
Pregruntas
4 pages
Data Mining Lab 03
No ratings yet
Data Mining Lab 03
10 pages
Ge Sem II Dav Upc 2344001201 Sl. No. Qp. 2012 July 2023
No ratings yet
Ge Sem II Dav Upc 2344001201 Sl. No. Qp. 2012 July 2023
16 pages
Fundamental - Python
No ratings yet
Fundamental - Python
3 pages
AME Set Ups
No ratings yet
AME Set Ups
7 pages
Exam 1
No ratings yet
Exam 1
8 pages
FDS RECORD-1-4
No ratings yet
FDS RECORD-1-4
18 pages
Practical (Data Science)
No ratings yet
Practical (Data Science)
13 pages
Practical File Questions With Answers
No ratings yet
Practical File Questions With Answers
7 pages
Experienced Resume
No ratings yet
Experienced Resume
3 pages
Practical File Question 28.09.2022
No ratings yet
Practical File Question 28.09.2022
15 pages
ip study
No ratings yet
ip study
18 pages
Data Science Cheat Sheet: KEY Imports
100% (1)
Data Science Cheat Sheet: KEY Imports
1 page
Commands SQL, Python (BASICS)
No ratings yet
Commands SQL, Python (BASICS)
7 pages
NumPy and Pandas (1)
No ratings yet
NumPy and Pandas (1)
12 pages
Data Wrangling
No ratings yet
Data Wrangling
13 pages
Pandas DataFrame Notes
No ratings yet
Pandas DataFrame Notes
13 pages
Python for Absolute Beginners: Learn to Code Fast!
From Everand
Python for Absolute Beginners: Learn to Code Fast!
Ibnul Jaif Farabi
No ratings yet
The Essential R Reference
From Everand
The Essential R Reference
Mark Gardener
No ratings yet
Oracle Certified Professional Java Programmer OCPJP 1Z0 809
From Everand
Oracle Certified Professional Java Programmer OCPJP 1Z0 809
Manish Soni
No ratings yet
Advanced C Concepts and Programming: First Edition
From Everand
Advanced C Concepts and Programming: First Edition
Gayatri
3/5 (1)
Introduction to PHP, Part 2, Second Edition
From Everand
Introduction to PHP, Part 2, Second Edition
Adam Majczak
No ratings yet
Profound Python Data Science
From Everand
Profound Python Data Science
Onder Teker
No ratings yet

Uploaded by

Uploaded by

Semester : III

Subject : Python Subject Code : BDS306B

Pickling of Objects in Python

Library pandas can also be used to pickle and unpickle

# using pandas library

Discretization and Binning

Discretization is the process of converting continuous variable to categorical variable. Categorical

Pandas provides two functions cut() and qcut() to perform discretization.

perc = [56.23,67.23,44.56, 89.99,76.99, 99.9,72.65, 45.34,82.34]

# if bins are not specified, and no. of bins are specified

Random reordering of Series or rows of a DataFrame is called Permutation.

Random subet of a dataframe can also be created.

Extract a subset of DataFrame randomly using randomint() function in numpy is Random

Detecting and Filtering outlier

You might also like