InterpretableMachineLearning2020 icon indicating copy to clipboard operation
InterpretableMachineLearning2020 copied to clipboard

Dataset: risk of suspension of operations based on CEIDG

Open pbiecek opened this issue 5 years ago • 1 comments

Problem

This is a binary classification problem. On the basis of historical data, models (of varying degrees of complexity) should be developed to predict the risk of suspension of operations for a company based on CEIDG data (Centralna Ewidencja i Informacja o Działalności Gospodarczej). The best models should be explained using XAI tools at the instance level and at the data set level.

Data

The data will be provided to interested students. This project will be conducted in collaboration with Bartłomiej Karaban.

Example

See for example https://pl.wikipedia.org/wiki/Modele_oceny_zagro%C5%BCenia_upad%C5%82o%C5%9Bci%C4%85

pbiecek avatar Feb 24 '20 20:02 pbiecek

Zachęcam do wyboru tego zbioru danych. W obliczu nadchodzących zawirowań gospodarczych, na własnym modelu będziecie mogli 'odczuć' jak zmieni się jego performance (w tym celu pod koniec maja dostarczę próbkę Out Of Time) po walidacji na nowych danych. Przypomnijmy, tutaj dokonujemy predykcji czy biznes będzie kontynuowany w ciągu kolejnych 12 miesięcy.

Dodatkowo, będziemy mogli zrobić challenge w stylu Kaggle - model regresji logistycznej, który zbudowałem osiąga AUC 0.685 - jednak jego równanie udostępnię na koniec semestru, żeby na tym etapie nie dawać sugestii co do wyboru czy transformacji cech.

Repozytorium opisujące dane wraz z próbką

Uwaga! Próbki, które są w folderze data nie są tymi, na których finalnie ma się odbyć modelowanie. W celu uzyskania danych proszę o kontakt na [email protected]

Pozdrawiam,

Bartek Karaban

karabanb avatar Mar 18 '20 19:03 karabanb