From 788df63dce535ea6820ccf542b2c521f4ed0f719 Mon Sep 17 00:00:00 2001 From: danilyef Date: Tue, 3 Sep 2024 09:35:49 +0200 Subject: [PATCH] main.py and README.md correction --- homework_4/pr4/README.md | 22 ++++++++++++++++++++++ homework_4/pr4/duplicate_issues.csv | 7 +++++++ homework_4/pr4/label_issues.csv | 5 +++++ homework_4/pr4/label_issues_scores.csv | 5 +++++ homework_4/pr4/main.py | 2 ++ homework_4/pr4/outlier_issues.csv | 2 ++ homework_4/pr4/outlier_issues_scores.csv | 2 ++ homework_4/pr4/requirements.txt | 2 +- 8 files changed, 46 insertions(+), 1 deletion(-) create mode 100644 homework_4/pr4/README.md create mode 100644 homework_4/pr4/duplicate_issues.csv create mode 100644 homework_4/pr4/label_issues.csv create mode 100644 homework_4/pr4/label_issues_scores.csv create mode 100644 homework_4/pr4/outlier_issues.csv create mode 100644 homework_4/pr4/outlier_issues_scores.csv diff --git a/homework_4/pr4/README.md b/homework_4/pr4/README.md new file mode 100644 index 0000000..a5a5a43 --- /dev/null +++ b/homework_4/pr4/README.md @@ -0,0 +1,22 @@ +# PR4: Write code for transforming your dataset into a vector format, and utilize VectorDB for ingestion and querying. + + +# Cleanlab Discoveries + +**Duplicate Issues** + +- Cleanlab identified 6 duplicate issues in our dataset. +- All of them belong to category 4 or category 8. + +**Label Issues** + +- Cleanlab identified 4 label issues in our dataset. +- they all have score below 0.20 (which is quite low) +- Mislabeled emails belong to category 4 or category 2. +- Detailed analysis of label issues can be found in `label_issues_scores.csv` and `label_issues.csv` + +**Outlier Issues** + +- Cleanlab identified 1 outlier issue in our dataset. +- It belongs to category 1 and has a score lower than 0.20. +- Detailed analysis of outlier issues can be found in `outlier_issues_scores.csv` and `outlier_issues.csv` \ No newline at end of file diff --git a/homework_4/pr4/duplicate_issues.csv b/homework_4/pr4/duplicate_issues.csv new file mode 100644 index 0000000..323759e --- /dev/null +++ b/homework_4/pr4/duplicate_issues.csv @@ -0,0 +1,7 @@ +Original_Email,Original_Category,Duplicate_Email,Duplicate_Category +"Sehr geehrte Damen und Herren, ich möchte um die Kopie meines Vertrags bitten.",8,"Sehr geehrte Damen und Herren, ich möchte eine Kopie meines Vertrags anfordern.",8 +"Guten Tag, ich möchte meinen Vertrag schnellstmöglich kündigen.",4,"Guten Tag, ich möchte den Vertrag so schnell wie möglich kündigen.",4 +"Guten Tag, ich möchte meine Bestellung stornieren.",4,"Guten Tag, ich möchte meine Bestellung stornieren.",4 +"Sehr geehrte Damen und Herren, ich möchte eine Kopie meines Vertrags anfordern.",8,"Sehr geehrte Damen und Herren, ich möchte um die Kopie meines Vertrags bitten.",8 +"Guten Tag, ich möchte meine Bestellung stornieren.",4,"Guten Tag, ich möchte meine Bestellung stornieren.",4 +"Guten Tag, ich möchte den Vertrag so schnell wie möglich kündigen.",4,"Guten Tag, ich möchte meinen Vertrag schnellstmöglich kündigen.",4 diff --git a/homework_4/pr4/label_issues.csv b/homework_4/pr4/label_issues.csv new file mode 100644 index 0000000..008ff14 --- /dev/null +++ b/homework_4/pr4/label_issues.csv @@ -0,0 +1,5 @@ +Email,Category +"Sehr geehrter Kundenservice, ich möchte mein Internet-Abo zum Monatsende kündigen.",4 +"Ich habe den Service von Ihnen bereits gekündigt, aber ich erhalte weiterhin Rechnungen.",4 +"Guten Tag, können Sie mir bitte die Zahlungseingangsbestätigung zusenden?",2 +"Guten Tag, ich habe ein Problem mit der letzten Abbuchung.",2 diff --git a/homework_4/pr4/label_issues_scores.csv b/homework_4/pr4/label_issues_scores.csv new file mode 100644 index 0000000..030f0b3 --- /dev/null +++ b/homework_4/pr4/label_issues_scores.csv @@ -0,0 +1,5 @@ +is_label_issue,label_score,given_label,predicted_label +True,0.20127963476428865,4,6 +True,0.1453738242128867,4,2 +True,0.14309154875404048,2,5 +True,0.09542877980390857,2,6 diff --git a/homework_4/pr4/main.py b/homework_4/pr4/main.py index 5570697..0845b48 100644 --- a/homework_4/pr4/main.py +++ b/homework_4/pr4/main.py @@ -31,11 +31,13 @@ def main(): label_issues_idx = label_issues[label_issues["is_label_issue"] == True].index.to_numpy() label_issues_df = df.iloc[label_issues_idx] label_issues_df.to_csv('label_issues.csv', index=False) + label_issues[label_issues["is_label_issue"] == True].to_csv('label_issues_scores.csv', index=False) outlier_issues = lab.get_issues("outlier") outlier_issues_idx = outlier_issues[outlier_issues["is_outlier_issue"] == True].index.to_numpy() outlier_issues_df = df.iloc[outlier_issues_idx] outlier_issues_df.to_csv('outlier_issues.csv', index=False) + outlier_issues[outlier_issues["is_outlier_issue"] == True].to_csv('outlier_issues_scores.csv', index=False) duplicate_issues = lab.get_issues("near_duplicate") diff --git a/homework_4/pr4/outlier_issues.csv b/homework_4/pr4/outlier_issues.csv new file mode 100644 index 0000000..ad563c9 --- /dev/null +++ b/homework_4/pr4/outlier_issues.csv @@ -0,0 +1,2 @@ +Email,Category +Ich habe Fragen zu Ihrer Geschäftslösung und wie wir sie in unserem Unternehmen einsetzen können.,1 diff --git a/homework_4/pr4/outlier_issues_scores.csv b/homework_4/pr4/outlier_issues_scores.csv new file mode 100644 index 0000000..d568c28 --- /dev/null +++ b/homework_4/pr4/outlier_issues_scores.csv @@ -0,0 +1,2 @@ +is_outlier_issue,outlier_score +True,0.18030228 diff --git a/homework_4/pr4/requirements.txt b/homework_4/pr4/requirements.txt index 427f2ec..ea30dfd 100644 --- a/homework_4/pr4/requirements.txt +++ b/homework_4/pr4/requirements.txt @@ -1 +1 @@ -cleanlab \ No newline at end of file +cleanlab==2.6.6 \ No newline at end of file