0% found this document useful (0 votes)

4 views

A Real World Scenario Solution using pandas

Uploaded by

asharyg5752

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

4 views

A Real World Scenario Solution using pandas

Uploaded by

asharyg5752

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 3

Analyzing E-commerce Sales Data

Scenario:
An e-commerce company wants to analyze its 2023 sales performance. Data comes from multiple sources:
1. Transactions data (CSV) with missing values
2. Product catalog (Excel) with category information
3. Customer data (JSON) with signup dates
Key Objectives:
1. Clean and merge datasets
2. Calculate monthly sales trends
3. Identify top-selling products
4. Analyze customer purchasing patterns
Store both combining monthly sales and monthly profit, product performance, customer loyalty to separate
CSV files.

Solution:
import pandas as pd

import numpy as np

# 1. Load Data

transactions = pd.read_csv('transactions.csv', parse_dates=['order_date'])

products = pd.read_excel('product_catalog.xlsx')

customers = pd.read_json('customers.json', convert_dates=['signup_date'])

# 2. Clean Transactions Data

transactions['quantity'] = transactions['quantity'].fillna(1)

transactions['unit_price'] = transactions.groupby('product_id')['unit_price'].transform(lambda x: x.fillna(x.median()))

transactions['order_id'] = transactions['order_id'].astype('category')

transactions['customer_id'] = transactions['customer_id'].astype('int32')

# 3. Merge Datasets

merged_data = transactions.merge(products[['product_id', 'category', 'cost_price']], on='product_id', how='left').merge(

customers[['customer_id', 'signup_date', 'tier']], on='customer_id', how='left')

# 4. Feature Engineering

Instructor: Shazmina Gull Course: Tools and Techniques in Data Science FoC, IUB, RYK Campus
merged_data['total_sales'] = merged_data['quantity'] * merged_data['unit_price']

merged_data['profit'] = (merged_data['unit_price'] - merged_data['cost_price']) * merged_data['quantity']

# 5. Store Merged Data

merged_data.to_parquet('processed_data.parquet', index=False)

# 6. Monthly Sales Analysis

monthly_sales = merged_data.resample('M', on='order_date')['total_sales'].sum()

monthly_profit = merged_data.resample('M', on='order_date')['profit'].sum()

pd.DataFrame({'total_sales': monthly_sales, 'total_profit': monthly_profit}).to_csv('monthly_sales_report.csv')

# 7. Product Performance Analysis

product_performance = merged_data.groupby('product_id').agg({'total_sales': 'sum', 'quantity': 'sum', 'profit':

'mean'}).sort_values('total_sales', ascending=False)

product_performance.to_excel('top_products.xlsx')

# 8. Customer Segmentation

customer_loyalty = merged_data.groupby('customer_id').agg({'order_id': 'nunique', 'total_sales': 'sum', 'signup_date':

'first'}).rename(columns={'order_id': 'purchase_count'})

customer_loyalty['cohort'] = customer_loyalty['signup_date'].dt.to_period('M')

customer_loyalty['lifetime_months'] = (pd.Period('2023-12', freq='M') - customer_loyalty['cohort']).apply(lambda x: x.n)

customer_loyalty.to_csv('customer_segments.csv')

# 9. Data Validation

negative_profit = merged_data[merged_data['profit'] < 0]

if not negative_profit.empty:

negative_profit.to_csv('negative_profit_transactions.csv', index=False)

print(f"Saved {len(negative_profit)} negative profit transactions to file")

# 10. Verify data completeness

missing_categories = merged_data[merged_data['category'].isna()]

if not missing_categories.empty:

missing_categories.to_csv('missing_category_records.csv', index=False)

print("Saved records with missing categories to file")

Instructor: Shazmina Gull Course: Tools and Techniques in Data Science FoC, IUB, RYK Campus
print("Processing complete. Results saved to:")

print("- processed_data.parquet : Full cleaned dataset")

print("- monthly_sales_report.csv : Monthly sales summary")

print("- top_products.xlsx : Product performance analysis")

print("- customer_segments.csv : Customer loyalty metrics")

print("- negative_profit_transactions.csv : Data quality issues (if any)")

print("- missing_category_records.csv : Data quality issues (if any)")

Instructor: Shazmina Gull Course: Tools and Techniques in Data Science FoC, IUB, RYK Campus

ISA Module Test 2
No ratings yet
ISA Module Test 2
2 pages
Deadline 7.1.0.35 User Manual
No ratings yet
Deadline 7.1.0.35 User Manual
969 pages
Vendor Invoice Mass Upload in S4Hana 1809
No ratings yet
Vendor Invoice Mass Upload in S4Hana 1809
8 pages
Final
No ratings yet
Final
2 pages
DA108 Lab 08 Assignment
No ratings yet
DA108 Lab 08 Assignment
2 pages
IIM PBA Assignment 2
No ratings yet
IIM PBA Assignment 2
3 pages
Data+Analysis+Project+on+Customer+Purchases+Dataset
No ratings yet
Data+Analysis+Project+on+Customer+Purchases+Dataset
1 page
Synopsis
No ratings yet
Synopsis
4 pages
Deep Learning Assignments
No ratings yet
Deep Learning Assignments
13 pages
Project Amazon Sales Data Analysis
No ratings yet
Project Amazon Sales Data Analysis
12 pages
FILE_2620
No ratings yet
FILE_2620
24 pages
DOC-20250118-WA0002.
No ratings yet
DOC-20250118-WA0002.
4 pages
RITHIKA CONTENT
No ratings yet
RITHIKA CONTENT
25 pages
249 PRJ
No ratings yet
249 PRJ
31 pages
Supermarket Sales Analysis Project
No ratings yet
Supermarket Sales Analysis Project
8 pages
My first ETL pipeline
No ratings yet
My first ETL pipeline
10 pages
Data Mining(2)(1)
No ratings yet
Data Mining(2)(1)
10 pages
Notes 20241025083428
No ratings yet
Notes 20241025083428
4 pages
Ecommerce_EDA_Project
No ratings yet
Ecommerce_EDA_Project
14 pages
Import Pandas as Pd
No ratings yet
Import Pandas as Pd
7 pages
Olist Kasyapa
No ratings yet
Olist Kasyapa
22 pages
Advance Data Analytics ASSIGNMENT
No ratings yet
Advance Data Analytics ASSIGNMENT
10 pages
rithika.ppt
No ratings yet
rithika.ppt
16 pages
Analyzing Sales Data
No ratings yet
Analyzing Sales Data
11 pages
Ads Phase 5
No ratings yet
Ads Phase 5
23 pages
Supermarket Sales Data analysis
No ratings yet
Supermarket Sales Data analysis
6 pages
Supermarket Sales Analysis 1
No ratings yet
Supermarket Sales Analysis 1
13 pages
Analysis of Superstore Database
No ratings yet
Analysis of Superstore Database
23 pages
Data Analysis
No ratings yet
Data Analysis
4 pages
Supermart Grocery Sales - Retail Analytics Dataset - (Data Analyst)
No ratings yet
Supermart Grocery Sales - Retail Analytics Dataset - (Data Analyst)
17 pages
Ali Shafi BSBA 2-A 6522 Sales Market Data
No ratings yet
Ali Shafi BSBA 2-A 6522 Sales Market Data
40 pages
EDA_Combined_Analysis_Report
No ratings yet
EDA_Combined_Analysis_Report
5 pages
Customer Segmentation in Python
No ratings yet
Customer Segmentation in Python
71 pages
sql capstone project
No ratings yet
sql capstone project
4 pages
final project ppt
No ratings yet
final project ppt
15 pages
Wrangle Report
No ratings yet
Wrangle Report
7 pages
Pranita Dane - IBM - Internship Project Submission - Data Analytics
No ratings yet
Pranita Dane - IBM - Internship Project Submission - Data Analytics
28 pages
Final Ca
No ratings yet
Final Ca
10 pages
Guides
No ratings yet
Guides
23 pages
Python Project
No ratings yet
Python Project
20 pages
Internship Report of Sales Data Analysis
No ratings yet
Internship Report of Sales Data Analysis
21 pages
IIT FDS Assignment 1 Likhita
No ratings yet
IIT FDS Assignment 1 Likhita
7 pages
OEL01
No ratings yet
OEL01
8 pages
Tasks for Students (1)
No ratings yet
Tasks for Students (1)
4 pages
Ads Phase3
No ratings yet
Ads Phase3
9 pages
Cours 3 - TP
No ratings yet
Cours 3 - TP
3 pages
Document Formatting
No ratings yet
Document Formatting
7 pages
AMAZON SALES ANALYSIS
No ratings yet
AMAZON SALES ANALYSIS
51 pages
Assessing Data Quality Dimensions
No ratings yet
Assessing Data Quality Dimensions
9 pages
Solution
No ratings yet
Solution
4 pages
Python Project Report
No ratings yet
Python Project Report
19 pages
CV Ananya
No ratings yet
CV Ananya
2 pages
Unit 3-5 15 Marks
No ratings yet
Unit 3-5 15 Marks
8 pages
Piyush Kumar Singh - Project Submission - Data Analytics
No ratings yet
Piyush Kumar Singh - Project Submission - Data Analytics
23 pages
Customer Segmentation PDF
No ratings yet
Customer Segmentation PDF
18 pages
Project-3
No ratings yet
Project-3
8 pages
Project brief
No ratings yet
Project brief
4 pages
Experiment No 7 Dmv
No ratings yet
Experiment No 7 Dmv
5 pages
Sales Data Analysis
No ratings yet
Sales Data Analysis
37 pages
BIDA practical print
No ratings yet
BIDA practical print
56 pages
Practical Assignment ( Data Analytics )
No ratings yet
Practical Assignment ( Data Analytics )
13 pages
User Instructions Hadoop Project
No ratings yet
User Instructions Hadoop Project
2 pages
Stripe Integration in Angular: A Step-by-Step Guide to Creating Payment Functionality
From Everand
Stripe Integration in Angular: A Step-by-Step Guide to Creating Payment Functionality
Abdelfattah Ragab
No ratings yet
Sanskar Sharma Resume
No ratings yet
Sanskar Sharma Resume
1 page
A First Impression of Programming With Robomind
No ratings yet
A First Impression of Programming With Robomind
14 pages
Argumentative Writting
No ratings yet
Argumentative Writting
4 pages
Case Study 2
No ratings yet
Case Study 2
13 pages
Intership Final
No ratings yet
Intership Final
23 pages
Saffire Usb Manual
No ratings yet
Saffire Usb Manual
1 page
OFBS - User Manual
No ratings yet
OFBS - User Manual
24 pages
The Evolution of Java EE
No ratings yet
The Evolution of Java EE
4 pages
Appendix A. Verilog Examples: A.1 Combinational Logic Structures
No ratings yet
Appendix A. Verilog Examples: A.1 Combinational Logic Structures
14 pages
B.pharma. CAP Practical No 2
No ratings yet
B.pharma. CAP Practical No 2
4 pages
Sordum Random Password Generator
No ratings yet
Sordum Random Password Generator
3 pages
Blazor - A Beginners Guide
100% (1)
Blazor - A Beginners Guide
121 pages
Lecture 1 Internet Technology and Web Design (CUU)
No ratings yet
Lecture 1 Internet Technology and Web Design (CUU)
12 pages
Desirable Properties of Transactions: Transaction Processing Concepts and Concurrency Control Techniques
No ratings yet
Desirable Properties of Transactions: Transaction Processing Concepts and Concurrency Control Techniques
24 pages
SGW1-IA3-MMP - Modbus Multiplexer Exemys
No ratings yet
SGW1-IA3-MMP - Modbus Multiplexer Exemys
23 pages
OSSC Odisha CGLRE (Specialist) Official Paper (Held On_ 28 May, 2023)
No ratings yet
OSSC Odisha CGLRE (Specialist) Official Paper (Held On_ 28 May, 2023)
16 pages
Unit 5 Database Security and Auditing
No ratings yet
Unit 5 Database Security and Auditing
36 pages
Unit-1 Q&a
No ratings yet
Unit-1 Q&a
24 pages
Datasheet CRM
No ratings yet
Datasheet CRM
2 pages
Top 20 Matlab Interview Questions & Answers: 1) Explain What Is Matlab? Where Matlab Can Be Applicable?
No ratings yet
Top 20 Matlab Interview Questions & Answers: 1) Explain What Is Matlab? Where Matlab Can Be Applicable?
5 pages
GDC AMD Ryzen Processor Software Optimization
No ratings yet
GDC AMD Ryzen Processor Software Optimization
63 pages
Lecture 5, 6, 7 & 8 Database Systems: Comsats University Islamabad, Wah Campus
No ratings yet
Lecture 5, 6, 7 & 8 Database Systems: Comsats University Islamabad, Wah Campus
59 pages
Design and Implementation of A Tertiary Institutio
No ratings yet
Design and Implementation of A Tertiary Institutio
15 pages
Java Project Document-4
No ratings yet
Java Project Document-4
14 pages
3D Tic Tac Toe: Board State Representation
No ratings yet
3D Tic Tac Toe: Board State Representation
5 pages
Helicopter Flight Control High Level Software Requirements Document
No ratings yet
Helicopter Flight Control High Level Software Requirements Document
7 pages
XCP Pro User Manual
No ratings yet
XCP Pro User Manual
66 pages

Uploaded by

Uploaded by

Analyzing E-commerce Sales Data

transactions = pd.read_csv('transactions.csv', parse_dates=['order_date'])

customers = pd.read_json('customers.json', convert_dates=['signup_date'])

# 2. Clean Transactions Data

transactions['unit_price'] = transactions.groupby('product_id')['unit_price'].transform(lambda x: x.fillna(x.median()))

merged_data = transactions.merge(products[['product_id', 'category', 'cost_price']], on='product_id', how='left').merge(

customers[['customer_id', 'signup_date', 'tier']], on='customer_id', how='left')

merged_data['profit'] = (merged_data['unit_price'] - merged_data['cost_price']) * merged_data['quantity']

# 5. Store Merged Data

# 6. Monthly Sales Analysis

monthly_sales = merged_data.resample('M', on='order_date')['total_sales'].sum()

monthly_profit = merged_data.resample('M', on='order_date')['profit'].sum()

pd.DataFrame({'total_sales': monthly_sales, 'total_profit': monthly_profit}).to_csv('monthly_sales_report.csv')

# 7. Product Performance Analysis

product_performance = merged_data.groupby('product_id').agg({'total_sales': 'sum', 'quantity': 'sum', 'profit':

customer_loyalty = merged_data.groupby('customer_id').agg({'order_id': 'nunique', 'total_sales': 'sum', 'signup_date':

customer_loyalty['lifetime_months'] = (pd.Period('2023-12', freq='M') - customer_loyalty['cohort']).apply(lambda x: x.n)

negative_profit = merged_data[merged_data['profit'] < 0]

print(f"Saved {len(negative_profit)} negative profit transactions to file")

# 10. Verify data completeness

print("Saved records with missing categories to file")

print("- processed_data.parquet : Full cleaned dataset")

print("- monthly_sales_report.csv : Monthly sales summary")

print("- top_products.xlsx : Product performance analysis")

print("- customer_segments.csv : Customer loyalty metrics")

print("- negative_profit_transactions.csv : Data quality issues (if any)")

print("- missing_category_records.csv : Data quality issues (if any)")

You might also like