From e666b7477ff0dc623113ddb33be418bb98ed4376 Mon Sep 17 00:00:00 2001
From: Artur Paniukov <chgk1101@gmail.com>
Date: Thu, 4 Jan 2024 19:46:22 +0000
Subject: [PATCH] Add New Test String

---
 .../tokenizer/python/README.md                | 196 +++++++++---------
 .../tokenizer/python/tests/pass_rates.json    |   2 +-
 .../tokenizer/python/tests/tokenizers_test.py |   1 +
 3 files changed, 100 insertions(+), 99 deletions(-)
diff --git a/modules/custom_operations/user_ie_extensions/tokenizer/python/README.md b/modules/custom_operations/user_ie_extensions/tokenizer/python/README.md
index 40c55964e..1ef42c3d0 100644
--- a/modules/custom_operations/user_ie_extensions/tokenizer/python/README.md
+++ b/modules/custom_operations/user_ie_extensions/tokenizer/python/README.md
@@ -244,23 +244,23 @@ This report is autogenerated and includes tokenizers and detokenizers tests. The
   <tbody>
     <tr>
       <td >BPE</td>
-      <td >95.76</td>
-      <td >3325</td>
+      <td >95.82</td>
+      <td >3420</td>
     </tr>
     <tr>
       <td >SentencePiece</td>
-      <td >86.14</td>
-      <td >2800</td>
+      <td >86.28</td>
+      <td >2880</td>
     </tr>
     <tr>
       <td >Tiktoken</td>
-      <td >97.62</td>
-      <td >210</td>
+      <td >97.69</td>
+      <td >216</td>
     </tr>
     <tr>
       <td >WordPiece</td>
-      <td >86.79</td>
-      <td >507</td>
+      <td >82.12</td>
+      <td >520</td>
     </tr>
   </tbody>
 </table>
@@ -280,302 +280,302 @@ This report is autogenerated and includes tokenizers and detokenizers tests. The
     <tr>
       <td >BPE</td>
       <td >EleutherAI/gpt-j-6b</td>
-      <td >98.29</td>
-      <td >175</td>
+      <td >98.33</td>
+      <td >180</td>
     </tr>
     <tr>
       <td >BPE</td>
       <td >EleutherAI/gpt-neo-125m</td>
-      <td >98.29</td>
-      <td >175</td>
+      <td >98.33</td>
+      <td >180</td>
     </tr>
     <tr>
       <td >BPE</td>
       <td >EleutherAI/gpt-neox-20b</td>
-      <td >97.71</td>
-      <td >175</td>
+      <td >97.78</td>
+      <td >180</td>
     </tr>
     <tr>
       <td >BPE</td>
       <td >EleutherAI/pythia-12b-deduped</td>
-      <td >97.71</td>
-      <td >175</td>
+      <td >97.78</td>
+      <td >180</td>
     </tr>
     <tr>
       <td >BPE</td>
       <td >KoboldAI/fairseq-dense-13B</td>
-      <td >98.86</td>
-      <td >175</td>
+      <td >98.89</td>
+      <td >180</td>
     </tr>
     <tr>
       <td >BPE</td>
       <td >Salesforce/codegen-16B-multi</td>
-      <td >97.14</td>
-      <td >175</td>
+      <td >97.22</td>
+      <td >180</td>
     </tr>
     <tr>
       <td >BPE</td>
       <td >ai-forever/rugpt3large_based_on_gpt2</td>
-      <td >97.71</td>
-      <td >175</td>
+      <td >97.78</td>
+      <td >180</td>
     </tr>
     <tr>
       <td >BPE</td>
       <td >bigscience/bloom</td>
-      <td >99.43</td>
-      <td >175</td>
+      <td >99.44</td>
+      <td >180</td>
     </tr>
     <tr>
       <td >BPE</td>
       <td >databricks/dolly-v2-3b</td>
-      <td >97.71</td>
-      <td >175</td>
+      <td >97.78</td>
+      <td >180</td>
     </tr>
     <tr>
       <td >BPE</td>
       <td >facebook/bart-large-mnli</td>
-      <td >97.14</td>
-      <td >175</td>
+      <td >97.22</td>
+      <td >180</td>
     </tr>
     <tr>
       <td >BPE</td>
       <td >facebook/galactica-120b</td>
-      <td >98.29</td>
-      <td >175</td>
+      <td >98.33</td>
+      <td >180</td>
     </tr>
     <tr>
       <td >BPE</td>
       <td >facebook/opt-66b</td>
-      <td >98.86</td>
-      <td >175</td>
+      <td >98.89</td>
+      <td >180</td>
     </tr>
     <tr>
       <td >BPE</td>
       <td >gpt2</td>
-      <td >97.14</td>
-      <td >175</td>
+      <td >97.22</td>
+      <td >180</td>
     </tr>
     <tr>
       <td >BPE</td>
       <td >laion/CLIP-ViT-bigG-14-laion2B-39B-b160k</td>
-      <td >61.14</td>
-      <td >175</td>
+      <td >61.11</td>
+      <td >180</td>
     </tr>
     <tr>
       <td >BPE</td>
       <td >microsoft/deberta-base</td>
-      <td >96.00</td>
-      <td >175</td>
+      <td >96.11</td>
+      <td >180</td>
     </tr>
     <tr>
       <td >BPE</td>
       <td >roberta-base</td>
-      <td >96.00</td>
-      <td >175</td>
+      <td >96.11</td>
+      <td >180</td>
     </tr>
     <tr>
       <td >BPE</td>
       <td >sentence-transformers/all-roberta-large-v1</td>
-      <td >96.00</td>
-      <td >175</td>
+      <td >96.11</td>
+      <td >180</td>
     </tr>
     <tr>
       <td >BPE</td>
       <td >stabilityai/stablecode-completion-alpha-3b-4k</td>
-      <td >98.29</td>
-      <td >175</td>
+      <td >98.33</td>
+      <td >180</td>
     </tr>
     <tr>
       <td >BPE</td>
       <td >stabilityai/stablelm-tuned-alpha-7b</td>
-      <td >97.71</td>
-      <td >175</td>
+      <td >97.78</td>
+      <td >180</td>
     </tr>
     <tr>
       <td >SentencePiece</td>
       <td >NousResearch/Llama-2-13b-hf</td>
       <td >100.00</td>
-      <td >175</td>
+      <td >180</td>
     </tr>
     <tr>
       <td >SentencePiece</td>
       <td >NousResearch/Llama-2-13b-hf_slow</td>
       <td >100.00</td>
-      <td >175</td>
+      <td >180</td>
     </tr>
     <tr>
       <td >SentencePiece</td>
       <td >THUDM/chatglm2-6b</td>
       <td >100.00</td>
-      <td >175</td>
+      <td >180</td>
     </tr>
     <tr>
       <td >SentencePiece</td>
       <td >THUDM/chatglm2-6b_slow</td>
       <td >100.00</td>
-      <td >175</td>
+      <td >180</td>
     </tr>
     <tr>
       <td >SentencePiece</td>
       <td >THUDM/chatglm3-6b</td>
       <td >100.00</td>
-      <td >175</td>
+      <td >180</td>
     </tr>
     <tr>
       <td >SentencePiece</td>
       <td >THUDM/chatglm3-6b_slow</td>
       <td >100.00</td>
-      <td >175</td>
+      <td >180</td>
     </tr>
     <tr>
       <td >SentencePiece</td>
       <td >camembert-base</td>
       <td >0.00</td>
-      <td >175</td>
+      <td >180</td>
     </tr>
     <tr>
       <td >SentencePiece</td>
       <td >camembert-base_slow</td>
-      <td >74.29</td>
-      <td >175</td>
+      <td >75.00</td>
+      <td >180</td>
     </tr>
     <tr>
       <td >SentencePiece</td>
       <td >codellama/CodeLlama-7b-hf</td>
       <td >100.00</td>
-      <td >175</td>
+      <td >180</td>
     </tr>
     <tr>
       <td >SentencePiece</td>
       <td >codellama/CodeLlama-7b-hf_slow</td>
       <td >100.00</td>
-      <td >175</td>
+      <td >180</td>
     </tr>
     <tr>
       <td >SentencePiece</td>
       <td >microsoft/deberta-v3-base</td>
-      <td >93.14</td>
-      <td >175</td>
+      <td >93.33</td>
+      <td >180</td>
     </tr>
     <tr>
       <td >SentencePiece</td>
       <td >microsoft/deberta-v3-base_slow</td>
       <td >100.00</td>
-      <td >175</td>
+      <td >180</td>
     </tr>
     <tr>
       <td >SentencePiece</td>
       <td >xlm-roberta-base</td>
-      <td >98.86</td>
-      <td >175</td>
+      <td >98.89</td>
+      <td >180</td>
     </tr>
     <tr>
       <td >SentencePiece</td>
       <td >xlm-roberta-base_slow</td>
-      <td >98.86</td>
-      <td >175</td>
+      <td >98.89</td>
+      <td >180</td>
     </tr>
     <tr>
       <td >SentencePiece</td>
       <td >xlnet-base-cased</td>
-      <td >60.57</td>
-      <td >175</td>
+      <td >61.11</td>
+      <td >180</td>
     </tr>
     <tr>
       <td >SentencePiece</td>
       <td >xlnet-base-cased_slow</td>
-      <td >52.57</td>
-      <td >175</td>
+      <td >53.33</td>
+      <td >180</td>
     </tr>
     <tr>
       <td >Tiktoken</td>
       <td >Qwen/Qwen-14B-Chat</td>
-      <td >98.10</td>
-      <td >105</td>
+      <td >98.15</td>
+      <td >108</td>
     </tr>
     <tr>
       <td >Tiktoken</td>
       <td >Salesforce/xgen-7b-8k-base</td>
-      <td >97.14</td>
-      <td >105</td>
+      <td >97.22</td>
+      <td >108</td>
     </tr>
     <tr>
       <td >WordPiece</td>
       <td >ProsusAI/finbert</td>
-      <td >84.62</td>
-      <td >39</td>
+      <td >80.00</td>
+      <td >40</td>
     </tr>
     <tr>
       <td >WordPiece</td>
       <td >bert-base-multilingual-cased</td>
-      <td >84.62</td>
-      <td >39</td>
+      <td >80.00</td>
+      <td >40</td>
     </tr>
     <tr>
       <td >WordPiece</td>
       <td >bert-large-cased</td>
-      <td >84.62</td>
-      <td >39</td>
+      <td >80.00</td>
+      <td >40</td>
     </tr>
     <tr>
       <td >WordPiece</td>
       <td >cointegrated/rubert-tiny2</td>
-      <td >84.62</td>
-      <td >39</td>
+      <td >80.00</td>
+      <td >40</td>
     </tr>
     <tr>
       <td >WordPiece</td>
       <td >distilbert-base-uncased-finetuned-sst-2-english</td>
-      <td >84.62</td>
-      <td >39</td>
+      <td >80.00</td>
+      <td >40</td>
     </tr>
     <tr>
       <td >WordPiece</td>
       <td >google/electra-base-discriminator</td>
-      <td >84.62</td>
-      <td >39</td>
+      <td >80.00</td>
+      <td >40</td>
     </tr>
     <tr>
       <td >WordPiece</td>
       <td >google/mobilebert-uncased</td>
-      <td >100.00</td>
-      <td >39</td>
+      <td >95.00</td>
+      <td >40</td>
     </tr>
     <tr>
       <td >WordPiece</td>
       <td >jhgan/ko-sbert-sts</td>
-      <td >79.49</td>
-      <td >39</td>
+      <td >75.00</td>
+      <td >40</td>
     </tr>
     <tr>
       <td >WordPiece</td>
       <td >prajjwal1/bert-mini</td>
-      <td >100.00</td>
-      <td >39</td>
+      <td >95.00</td>
+      <td >40</td>
     </tr>
     <tr>
       <td >WordPiece</td>
       <td >rajiv003/ernie-finetuned-qqp</td>
-      <td >100.00</td>
-      <td >39</td>
+      <td >95.00</td>
+      <td >40</td>
     </tr>
     <tr>
       <td >WordPiece</td>
       <td >rasa/LaBSE</td>
-      <td >76.92</td>
-      <td >39</td>
+      <td >72.50</td>
+      <td >40</td>
     </tr>
     <tr>
       <td >WordPiece</td>
       <td >sentence-transformers/all-MiniLM-L6-v2</td>
-      <td >79.49</td>
-      <td >39</td>
+      <td >75.00</td>
+      <td >40</td>
     </tr>
     <tr>
       <td >WordPiece</td>
       <td >squeezebert/squeezebert-uncased</td>
-      <td >84.62</td>
-      <td >39</td>
+      <td >80.00</td>
+      <td >40</td>
     </tr>
   </tbody>
 </table>
diff --git a/modules/custom_operations/user_ie_extensions/tokenizer/python/tests/pass_rates.json b/modules/custom_operations/user_ie_extensions/tokenizer/python/tests/pass_rates.json
index 1567f78c3..5ff8bad4c 100644
--- a/modules/custom_operations/user_ie_extensions/tokenizer/python/tests/pass_rates.json
+++ b/modules/custom_operations/user_ie_extensions/tokenizer/python/tests/pass_rates.json
@@ -1,3 +1,3 @@
 {
-    "tokenizers_test.py::test_": 0.9121858562244302
+    "tokenizers_test.py::test_": 0.9096334185848253
 }
\ No newline at end of file
diff --git a/modules/custom_operations/user_ie_extensions/tokenizer/python/tests/tokenizers_test.py b/modules/custom_operations/user_ie_extensions/tokenizer/python/tests/tokenizers_test.py
index a9bae43fc..90bf2230c 100644
--- a/modules/custom_operations/user_ie_extensions/tokenizer/python/tests/tokenizers_test.py
+++ b/modules/custom_operations/user_ie_extensions/tokenizer/python/tests/tokenizers_test.py
@@ -61,6 +61,7 @@ def unpack_strings(strings):
 ]
 misc_strings = [
     "",
+    b"\x06".decode(),  # control char
     " ",
     " " * 10,
     "\n",