Business Failure Predictor

Project Overview

A machine learning model that predicts company bankruptcy risk by analyzing 18 financial metrics. Trained on nearly 80,000 American companies spanning 20 years (1999-2018), the model identifies patterns that signal business failure.

Using Random Forest classification, the model achieves 82.6% AUC score and 92% accuracy, making it a reliable tool for assessing financial distress in businesses.

Python Scikit-Learn Random Forest Pandas

Model Performance

Feature Importance

Analysis reveals which financial metrics are most predictive of business failure. X8, X6, and X15 emerge as the top three indicators, representing critical financial ratios that signal distress.

Note: The dataset uses anonymized financial ratios (X1-X18) which likely include debt-to-equity ratios, profitability metrics, liquidity ratios, and asset turnover measures commonly used in bankruptcy prediction models.

ROC Curve

The ROC curve demonstrates the model's ability to distinguish between healthy and failing companies. With an AUC of 0.8262, the model significantly outperforms random guessing and shows strong discriminative power across different probability thresholds.

Confusion Matrix

The confusion matrix breaks down prediction accuracy. The model correctly identifies 14,079 healthy companies and 330 failing companies, with relatively low false positive and false negative rates.

Risk Score Distribution

Distribution of predicted failure probabilities shows clear separation between actually healthy (green) and actually failed (orange) companies, demonstrating the model's effectiveness at risk stratification.

Key Insights

Financial ratio X8 is the single most important predictor of business failure, accounting for 8.8% of the model's decision-making power
The model handles class imbalance well, with only 6.6% of companies in the dataset actually failing
Random Forest outperformed Gradient Boosting by 6.5 percentage points in AUC score
The model achieves 95% precision on healthy companies while maintaining 35% precision on failing companies
Top 5 features (X8, X6, X15, X3, X11) collectively account for over 30% of prediction importance, likely representing key metrics such as cash flow, leverage, and profitability ratios
False positive rate is kept low at 4.2%, minimizing unnecessary alarm for healthy businesses

Technical Implementation

The project demonstrates end-to-end machine learning workflow including data preprocessing, feature scaling, model training, hyperparameter tuning, and comprehensive evaluation.

Key techniques:

StandardScaler normalization for feature scaling
Stratified train-test split to maintain class balance
Class weighting to handle imbalanced data
Model comparison between Random Forest and Gradient Boosting
ROC-AUC optimization over raw accuracy
Feature importance analysis for interpretability