Portfolio

About Me

Expertise

Data Engineering Data Analysis Data Warehousing ETL Big Data Cloud Platforms Data Modeling Database Design Data Pipeline Architecture Version Control Containerization

Project Categories

Data Engineering, Data Science, Data Analytics, Software Engineering, Other

Bio

Rohan is a data professional with 7 years of experience, two master’s degrees, and a proven track record of working with distributed global teams. His expertise spans the entire data lifecycle, from data engineering and analytics to visualization and machine learning, allowing him to quickly adapt to new technologies and methodologies. Rohan’s international exposure, diverse skill set, and eagerness to learn make him well-equipped to tackle complex data challenges and drive impactful solutions in fast-paced environments.

Experience

Python - 6 years Predictive Modeling - 6 years SQL - 5 years BigQuery - 3 years Data Modelling - 3 years Keras - 3 years Django - 2 years Amazon Web Services (AWS) - 2 years PySpark - 2 years DBT - 2 years Docker - 1 years

Education

Master of Science in Business Consulting, Furtwangen University, Germany (Master Thesis)
Master of Science in Big Data Analytics & AI, Novosibirsk State University, Russia (Master Thesis)
Bachelor of Technology in Engineering Physics, Delhi Technological University, India

Certifications

AWS Certified Data Engineer Associate (Credly)
Databricks Certified Data Engineer Associate (Credentials Databricks)
Dell EMC Data Science Assiociate (Certmetrics NCB172QTLEFQQG55)

Skills

Libraries/APIs - Pandas, NumPy, Scikit-learn, Apache Spark, Django
Tools - DBT, Docker, Apache Airflow
Languages - Python, SQL, R
Paradigms - ETL/ELT, Data Modeling, Data Warehousing, Big Data Processing
Platforms - MySQL, PostgreSQL, Amazon Web Services (AWS), Google Cloud Platform (GCP)
Storage - Amazon Redshift, Google BigQuery, Snowflake
Other - Data Pipeline Design, Data Quality Management, Data Analytics, Machine Learning

Preferred Environment

Visual Studio Code (VS Code), Amazon Web Services (AWS), Google Colab, MacOS

Data Engineering Projects

AWS-Powered Zillow Data Pipeline for Real Estate Analytics

Proprietary Work (Sample Code 🔗)

Engineered a data pipeline using medallion architecture for Zillow data, processing 1GB of daily scraped CSV files from AWS S3. Implemented data cleaning and standardization for 180 columns, storing results in Parquet format with Hive partitioning. Deployed as an AWS Lambda function with scheduled execution via CloudWatch, optimized for 3GB RAM allocation.

Technologies: AWS S3, AWS Lambda, AWS CloudWatch, AWS CLI, Python, Pandas, PyArrow, CSV, Parquet, Hive partitioning

Wiktionary Abbreviation Extractor for Legal Documents

Proprietary Work (Sample Code 🔗)

Developed a sophisticated tool to extract and analyze abbreviations from Wiktionary dumps. The project involved parsing complex data structures, implementing custom algorithms for abbreviation detection, and handling various edge cases to ensure comprehensive coverage of linguistic variations.

Technologies: Python, XML processing libraries, regular expressions, data structures, version control (Git), shell scripting

Rohan Rathore

Portfolio

About Me

Expertise

Project Categories

Bio

Experience

Education

Certifications

Skills

Preferred Environment

Data Engineering Projects

AWS-Powered Zillow Data Pipeline for Real Estate Analytics

Wiktionary Abbreviation Extractor for Legal Documents

PySpark-Based Oil Price Prediction Model

Database Migration from Snowflake to PostgreSQL

Google Search Console Data Extraction and BigQuery Integration

Automated Name Parsing for Healthcare Provider Lists

Web Scraping Forbes Russia Top 200 Private Companies

Anime Season Scraper Web Scraping Tool for MyAnimeList

Data Science Projects

System Cancel Rate Prediction Model

YouTube Insights Analysis for Channel Performance

PDF Q&A Bestie - LLM RAG

Data Science Consulting for Real Estate

Semantic Keyword Clustering Tool for Adwords

Facebook Ad Bid Multiplier Optimization

Churn Prediction Model using XGBoost for Zenefits

Product Recommendation System with LightGBM and Optuna

Predictive Model for Recruitment Time Estimation

Dialogflow Based Intelligent Virtual Assistant Chatbot

Angel Companies Prediction System

Inter-Annotator Agreement Analysis Tool for Hematology Analyzer

Berkeley/Stanford Parser Evaluation and Analysis

Data Analytics Projects

Chartio Dashboards for Muitiple Business Functions

Reverse ETL based Customer Data Integration Platform with Metabase

Data Platform Integration for Real-Time Analytics

Amplitude Analytics Implementation for Online Flower Business

E-commerce Analytics Dashboard Development

Qlksense Financial Dashboard - A/R Aging and Time Analysis

Superset Dashboard for Process Scoring System

Sales Performance Tracking Dashboard using Looker

Qliksense Data Visualization and Dashboard Development

Financial Data Analysis and MacBeth Risk Assessment

Software Engineering Projects

Real-time Job Notification System

Job Application Bestie - AI Powered Cover Letter Creator

Link Grammar Dictionary Visualization in Python

Publisher Analysis and Classification Tool

Other Projects

Hindi LLM Red Team Project