From 788df63dce535ea6820ccf542b2c521f4ed0f719 Mon Sep 17 00:00:00 2001
From: danilyef <daniil.yefimov92@gmail.com>
Date: Tue, 3 Sep 2024 09:35:49 +0200
Subject: [PATCH] main.py and README.md correction

---
 homework_4/pr4/README.md                 | 22 ++++++++++++++++++++++
 homework_4/pr4/duplicate_issues.csv      |  7 +++++++
 homework_4/pr4/label_issues.csv          |  5 +++++
 homework_4/pr4/label_issues_scores.csv   |  5 +++++
 homework_4/pr4/main.py                   |  2 ++
 homework_4/pr4/outlier_issues.csv        |  2 ++
 homework_4/pr4/outlier_issues_scores.csv |  2 ++
 homework_4/pr4/requirements.txt          |  2 +-
 8 files changed, 46 insertions(+), 1 deletion(-)
 create mode 100644 homework_4/pr4/README.md
 create mode 100644 homework_4/pr4/duplicate_issues.csv
 create mode 100644 homework_4/pr4/label_issues.csv
 create mode 100644 homework_4/pr4/label_issues_scores.csv
 create mode 100644 homework_4/pr4/outlier_issues.csv
 create mode 100644 homework_4/pr4/outlier_issues_scores.csv

diff --git a/homework_4/pr4/README.md b/homework_4/pr4/README.md
new file mode 100644
index 0000000..a5a5a43
--- /dev/null
+++ b/homework_4/pr4/README.md
@@ -0,0 +1,22 @@
+# PR4: Write code for transforming your dataset into a vector format, and utilize VectorDB for ingestion and querying.
+
+
+# Cleanlab Discoveries
+
+**Duplicate Issues**
+
+- Cleanlab identified 6 duplicate issues in our dataset.
+- All of them belong to category 4 or category 8.
+
+**Label Issues**
+
+- Cleanlab identified 4 label issues in our dataset.
+- they all have score below 0.20 (which is quite low)
+- Mislabeled emails belong to category 4 or category 2.
+- Detailed analysis of label issues can be found in `label_issues_scores.csv` and `label_issues.csv`
+
+**Outlier Issues**
+
+- Cleanlab identified 1 outlier issue in our dataset.
+- It belongs to category 1 and has a score lower than 0.20.
+- Detailed analysis of outlier issues can be found in `outlier_issues_scores.csv` and `outlier_issues.csv`
\ No newline at end of file
diff --git a/homework_4/pr4/duplicate_issues.csv b/homework_4/pr4/duplicate_issues.csv
new file mode 100644
index 0000000..323759e
--- /dev/null
+++ b/homework_4/pr4/duplicate_issues.csv
@@ -0,0 +1,7 @@
+Original_Email,Original_Category,Duplicate_Email,Duplicate_Category
+"Sehr geehrte Damen und Herren, ich möchte um die Kopie meines Vertrags bitten.",8,"Sehr geehrte Damen und Herren, ich möchte eine Kopie meines Vertrags anfordern.",8
+"Guten Tag, ich möchte meinen Vertrag schnellstmöglich kündigen.",4,"Guten Tag, ich möchte den Vertrag so schnell wie möglich kündigen.",4
+"Guten Tag, ich möchte meine Bestellung stornieren.",4,"Guten Tag, ich möchte meine Bestellung stornieren.",4
+"Sehr geehrte Damen und Herren, ich möchte eine Kopie meines Vertrags anfordern.",8,"Sehr geehrte Damen und Herren, ich möchte um die Kopie meines Vertrags bitten.",8
+"Guten Tag, ich möchte meine Bestellung stornieren.",4,"Guten Tag, ich möchte meine Bestellung stornieren.",4
+"Guten Tag, ich möchte den Vertrag so schnell wie möglich kündigen.",4,"Guten Tag, ich möchte meinen Vertrag schnellstmöglich kündigen.",4
diff --git a/homework_4/pr4/label_issues.csv b/homework_4/pr4/label_issues.csv
new file mode 100644
index 0000000..008ff14
--- /dev/null
+++ b/homework_4/pr4/label_issues.csv
@@ -0,0 +1,5 @@
+Email,Category
+"Sehr geehrter Kundenservice, ich möchte mein Internet-Abo zum Monatsende kündigen.",4
+"Ich habe den Service von Ihnen bereits gekündigt, aber ich erhalte weiterhin Rechnungen.",4
+"Guten Tag, können Sie mir bitte die Zahlungseingangsbestätigung zusenden?",2
+"Guten Tag, ich habe ein Problem mit der letzten Abbuchung.",2
diff --git a/homework_4/pr4/label_issues_scores.csv b/homework_4/pr4/label_issues_scores.csv
new file mode 100644
index 0000000..030f0b3
--- /dev/null
+++ b/homework_4/pr4/label_issues_scores.csv
@@ -0,0 +1,5 @@
+is_label_issue,label_score,given_label,predicted_label
+True,0.20127963476428865,4,6
+True,0.1453738242128867,4,2
+True,0.14309154875404048,2,5
+True,0.09542877980390857,2,6
diff --git a/homework_4/pr4/main.py b/homework_4/pr4/main.py
index 5570697..0845b48 100644
--- a/homework_4/pr4/main.py
+++ b/homework_4/pr4/main.py
@@ -31,11 +31,13 @@ def main():
     label_issues_idx = label_issues[label_issues["is_label_issue"] == True].index.to_numpy()
     label_issues_df = df.iloc[label_issues_idx]
     label_issues_df.to_csv('label_issues.csv', index=False)
+    label_issues[label_issues["is_label_issue"] == True].to_csv('label_issues_scores.csv', index=False)
 
     outlier_issues = lab.get_issues("outlier")
     outlier_issues_idx = outlier_issues[outlier_issues["is_outlier_issue"] == True].index.to_numpy()
     outlier_issues_df = df.iloc[outlier_issues_idx]
     outlier_issues_df.to_csv('outlier_issues.csv', index=False)
+    outlier_issues[outlier_issues["is_outlier_issue"] == True].to_csv('outlier_issues_scores.csv', index=False)
 
 
     duplicate_issues = lab.get_issues("near_duplicate")
diff --git a/homework_4/pr4/outlier_issues.csv b/homework_4/pr4/outlier_issues.csv
new file mode 100644
index 0000000..ad563c9
--- /dev/null
+++ b/homework_4/pr4/outlier_issues.csv
@@ -0,0 +1,2 @@
+Email,Category
+Ich habe Fragen zu Ihrer Geschäftslösung und wie wir sie in unserem Unternehmen einsetzen können.,1
diff --git a/homework_4/pr4/outlier_issues_scores.csv b/homework_4/pr4/outlier_issues_scores.csv
new file mode 100644
index 0000000..d568c28
--- /dev/null
+++ b/homework_4/pr4/outlier_issues_scores.csv
@@ -0,0 +1,2 @@
+is_outlier_issue,outlier_score
+True,0.18030228
diff --git a/homework_4/pr4/requirements.txt b/homework_4/pr4/requirements.txt
index 427f2ec..ea30dfd 100644
--- a/homework_4/pr4/requirements.txt
+++ b/homework_4/pr4/requirements.txt
@@ -1 +1 @@
-cleanlab
\ No newline at end of file
+cleanlab==2.6.6
\ No newline at end of file